Back to Home
ai February 6, 2026 9 Min Read

Claude Opus 4.6 공개

Claude Opus 4.6 공개

요약

댓글 요약


본문


Claude Opus 4.6 주요 개선점

벤치마크 및 성능 평가

초기 사용 경험 및 파트너 피드백

안전성 및 보안 강화

제품 및 API 업데이트

접근 및 가격

결론


댓글

heim2 24일전 맥스 쓰는데 뭔가 토큰을 많이 쓸수록 뿌듯… 안쓰면 아까움…

duse0001 24일전 인터넷에 돌던 가격 인하 내용은 적용 안됐네요

wegaia 24일전 구독자들 리밋 소진이 광속으로 다다른다는 글들이 레딧에 쏟아지는 중이네요. 하던일도 있고해서 그냥 계속 4.5 쓰고 있는 중

xguru 24일전 한정 기간 동안 50달러 상당의 추가 사용 크레딧은 준다고 하네요. ㅎㅎ

duse0001 24일전 Api 가격이 내려가면 자연스레 주간 한도가 올라갈거라 기대했는데 아쉽습니다 200달러 플랜 주간한도가 여유롭지않아서요..

princox 24일전 흑 너무 짜네요.. 안트로픽은 토큰을 뿌려줘라..!!

hmmhmmhm 24일전 오오 드디어~~~~

princox 24일전 Sonnet 5를 기대했는데, Opus 4.6이었네요 ㅎㅎ

GN+ 24일전

Hacker News 의견들
  • 자전거 프레임은 좀 삐뚤지만, 펠리컨 자체는 훌륭함 그림은 여기에서 볼 수 있음
    • 펠리컨 그림에 오버피팅된 게 아닐까 궁금함
    • “generate” 같은 단어 선택이 모델의 결과에 영향을 주는지 궁금함 펠리컨의 두 다리가 같은 쪽에 있는 걸 바로 눈치챘는데, 실제로는 그렇지 않다는 걸 Wikipedia에서 확인했음 프롬프트를 반복적으로 수정해 더 현실적인 결과를 얻을 수 있는지도 실험해봤는지 궁금함
    • 사실 대부분의 사람도 자전거를 제대로 못 그림 프레임 구조나 기하학적 비율을 자주 틀림
    • 애니메이션 버전도 있음 링크
    • 이런 출력물들이 결국 모델 학습에 다시 들어가 벤치마크를 통과하게 되는 시점이 오지 않을까 생각함
  • GPT-5.3 CodexTerminal Bench에서 77.3%로 압도적인 성능을 보였음 단 35분 만에 기록이 깨졌다는 게 놀라움
    • 모델 성능이 시간대나 서버 부하에 따라 달라지는데, 이런 벤치마크 신뢰성을 믿어도 되는지 의문임 혹시 출시 직후엔 최고 성능으로 돌리고 이후엔 비용 절감을 위해 낮추는 건 아닌지 궁금함
    • 광범위한 벤치마크 리포트가 없어서 benchmaxxing으로 돌아간 건 아닌지 궁금함 직접 써본 후 의견을 나눠보고 싶음
    • 점수가 10포인트나 오른 건 큰 변화인데, 실제 사용감에서도 질적 차이가 느껴질지 궁금함 혹시 이제 벤치마크 포화 상태에 도달한 건 아닐까 생각함
    • Claude swe-bench는 80.8, Codex는 56.8이라 여전히 Claude 4.6이 전반적으로 우세해 보임
  • Claude Code의 릴리스 노트 요약임 Opus 4.6 추가, multi-agent 협업 기능, 자동 메모리 기록, 부분 대화 요약, VSCode 개선 등 다양한 업데이트가 포함됨
    • “Claude가 작업 중 자동으로 기억을 기록하고 불러온다”는 부분이 흥미로움 메모리 기능 문서를 보면 Google Antigravity의 Knowledge 아티팩트와 비슷한 개념 같음
  • 논의에서 두 가지가 혼동되고 있다고 생각함 첫째는 토큰 단가 기반 수익성, 둘째는 모델 생애주기 경제학임 추론 단가는 이익일 수 있지만, 전체 모델 프로그램은 여전히 적자일 수 있음 진짜 질문은 “모델이 얼마나 오래 경쟁력을 유지해야 경제적으로 맞아떨어질까”임
    • worse is better”를 기억해야 함 최고가 아니어도 충분히 좋고, 전환 비용이 높으면 시장을 지배할 수 있음 초기에는 손해를 감수하더라도 특정 도메인(예: 코딩) 중심으로 시장을 확보하는 게 합리적일 수 있음
    • API 요금제 기준으로는 약간의 이익이 있을 것 같음 하지만 사용량이 20배 늘어나는 플랜은 지속 가능성이 의문임 지금의 “vibe-coding 르네상스”가 이런 비용 구조에서 유지될 수 있을지 모르겠음
    • Dario가 팟캐스트에서 말했듯, 모델은 수명 전체 기준으로는 수익성이 있음 연 단위 손익으로 보는 건 AI 기업의 특성상 부적절함
    • 진짜 흥미로운 건 “$200/월 플랜이 보조되고 있는가”임 이게 현재 에이전트형 코딩 붐을 떠받치고 있음 아마 약간은 보조 중이지만, 장기적으로는 2배 정도 인상될 가능성이 있음
  • 1M 컨텍스트 윈도우가 생긴 건 엄청난 업그레이드라 매우 만족스러움
  • Anthropic의 전략이 아직도 잘 이해되지 않음 대중 시장을 노리는 마케팅을 하지만 실제 강점은 코딩 중심임 일반 연구나 정보 탐색에서는 ChatGPT나 Gemini가 훨씬 깊이 있고 표현도 좋음 “헌법”이나 “인권” 같은 인간성 마케팅을 하지만 오히려 가장 거래적으로 느껴짐 그래도 코딩용으로는 훌륭해서 계속 유료로 쓰고 있음
    • 코드 외의 일반 대화에서도 Claude는 꽤 잘 작동함 비기술 친구들도 ChatGPT에서 Claude로 옮겼고 다시 돌아간 경우를 못 봤음 8개월 전만 해도 API에서만 쓸 만했는데 지금은 훨씬 나아짐
    • 영어 외 언어에서는 품질이 심각하게 떨어짐 나는 체코어 사용자인데 Claude는 단어를 지어내고, Grok은 러시아어로 답할 때도 있음 코딩엔 좋지만 일반 대화용으로는 불가능함
    • 모델이 일상적이지 않음 에이전트형 작업이나 도구 사용에는 좋지만, 일상 질문에는 쓰지 않음
  • Opus 4.6이 설치에 안 보였는데, 다시 설치 명령을 실행하니 나타났음 (v2.1.32) 설치 가이드
    • 이미 사용 중임
  • AI/LLM의 운영 비용이 실제로 줄고 있는지 궁금함 “에이전트 팀” 개념은 멋지지만, 여러 모델을 동시에 돌리면 비용이 커서 현실적으로 어렵다고 느낌
    • 토큰당 비용은 꾸준히 하락 중임 OpenAI는 엔지니어링 최적화로 o3 가격을 1/5로 낮췄고, 다른 업체들도 비슷한 절감 효과를 얻었음 예전의 “모든 요청에서 손해 본다”는 말은 사실과 다름
    • 그 루머는 반복되지만 실제로는 추론 단가가 원가보다 낮을 리 없다고 생각함 전체 회사는 R&D와 훈련비로 적자지만, API 사용 자체는 이익임 DeepSeek 같은 오픈 모델도 훨씬 낮은 가격으로도 수익을 내고 있음
    • 실제 데이터로 보면 손해일 리 없음 예를 들어 Claude 4(약 400B 파라미터)는 DeepSeek V3(680B)보다 훨씬 비쌈 Claude 입력 $1/M, 출력 $5/M vs DeepSeek 입력 $0.4/M, 출력 $1.2/M 이 차이는 Anthropic이 훈련비를 회수해야 하기 때문임 DeepSeek 가격, Claude 가격
    • 실제 손익 계산은 어렵지만, 감가상각과 모델 수명 같은 불확실성이 큼 단순히 추론 수익만 보면 이익이지만, 전체 비용을 보면 그렇지 않을 수도 있음
    • AI 에이전트 활용도는 아직 낮음 코딩 보조로 쓰지만 자주 경로 수정이 필요함 그래도 숙련된 인력을 고용하는 것보단 훨씬 저렴함
  • We build Claude with Claude”라는 문구가 꽤 흥미로움
    • Claude Code에는 6000개 이상의 오픈 이슈가 있음 60일 비활성 시 자동 정리되는데도 계속 늘어나는 중임
    • 매우 성공적인 제품이라 생각함 그 문구가 편견을 드러내는 것 외엔 별 의미 없음
    • dogfooding의 중요성을 보여주는 사례라고 봄 스스로 써보는 게 최고의 품질 개선 방법임
    • CC의 샌드박싱은 거의 농담 수준임 지금처럼 래퍼가 폭증하는 이유이며, 언젠가 보안 사고가 날 것 같음
    • 그래서 Claude Code가 React 앱이 터미널로 출력되는 구조인 게 설명됨
  • Opus 4.6을 체험해보라고 $50 크레딧을 추가로 제공 중임 사용량 페이지에서 바로 받을 수 있음 아마 토큰 사용량 증가를 예상하거나 모델 홍보 목적일 것 같음

Wonkyu Kim

UX Designer & AI Team Lead

UX Designer exploring the intersection of human-centered design and AI technology. Sharing lessons from building design systems and leading AI-driven product initiatives.