[AI 번역] Claude의 확장된 사고 (Claude's extended thinking)

출처: https://www.anthropic.com/news/visible-extended-thinking

Claude의 확장된 사고

2025년 2월 24일

손에서 여러 방향으로 뻗어나가는 노드들이 그려진 손그림 이미지

어떤 일들은 거의 즉각적으로 떠오릅니다: "오늘이 무슨 요일이지?" 하지만 어떤 일들은 더 많은 정신적 에너지가 필요합니다. 예를 들어, 난해한 크로스워드 퍼즐을 풀거나 복잡한 코드를 디버깅하는 일 등입니다. 우리는 상황에 따라 더 많은 인지적 노력을 들일지, 덜 들일지 선택할 수 있습니다.

이제 Claude도 같은 유연성을 갖추게 되었습니다. 새로운 Claude 3.7 Sonnet에서는 "확장된 사고 모드(extended thinking mode)"를 켜거나 끌 수 있어, 더 어려운 질문에 대해 모델이 더 깊이 생각하도록 할 수 있습니다. 개발자는 "사고 예산(thinking budget)"을 설정해 Claude가 문제 해결에 얼마만큼의 시간을 쓸지 정밀하게 제어할 수도 있습니다.

확장된 사고 모드는 별도의 전략을 가진 다른 모델로 전환되는 옵션이 아닙니다. 동일한 모델이 스스로 더 많은 시간과 노력을 들여 답을 내리도록 하는 것입니다.

Claude의 새로운 확장 사고 기능은 지능에 인상적인 향상을 가져왔습니다. 하지만 동시에 AI 모델의 작동 방식, 평가 방법, 안전성 개선에 관심 있는 이들에게 중요한 질문도 제기합니다. 이 글에서는 우리가 얻은 몇 가지 인사이트를 공유합니다.

가시적인 사고 과정

Claude가 더 오래 생각할 수 있게 하면서, 우리는 그 사고 과정을 원시 형태로 가시화하기로 했습니다. 이는 여러 가지 이점을 제공합니다:

신뢰성: Claude가 어떻게 생각하는지 관찰할 수 있으면 답변을 이해하고 검증하기 쉬워지며, 더 나은 결과를 얻는 데 도움이 될 수 있습니다.
정렬(Alignment): 이전 Alignment Science 연구에서, 모델이 내적으로 생각하는 것과 외적으로 말하는 것 사이의 모순을 활용해, 속임수 등 우려되는 행동을 식별할 수 있었습니다.
흥미: Claude가 생각하는 과정을 지켜보는 것은 종종 흥미롭습니다. 수학·물리 배경을 가진 연구자들은 Claude의 사고 과정이 자신들이 어려운 문제를 풀 때의 사고와 매우 유사하다고 느꼈습니다. 다양한 각도와 논리의 가지를 탐색하고, 답을 두세 번씩 재확인하는 모습이 그렇습니다.

하지만 가시적인 사고 과정에는 단점도 있습니다. 첫째, 공개된 사고는 Claude의 기본 답변보다 더 비인격적이고 딱딱하게 느껴질 수 있습니다. 이는 사고 과정에 대해 별도의 캐릭터 트레이닝을 하지 않았기 때문입니다. Claude가 답을 내기 위해 필요한 생각을 최대한 자유롭게 하도록 했고, 인간의 사고처럼 때로는 잘못되거나 미완성된 생각도 포함됩니다. 많은 사용자는 이를 유용하게 느끼겠지만, 일부는 덜 인격적인 내용에 불만을 느낄 수 있습니다.

또 다른 문제는 "신실성(faithfulness)"입니다. 사고 과정에 드러난 내용이 실제로 모델 내부에서 일어나는 일을 진정으로 반영하는지 확신할 수 없습니다(예: 영어 단어로 표현된 사고가 실제 행동의 원인을 설명하지 못할 수 있음). 신실성 문제와 그 보장 방법은 우리의 주요 연구 주제 중 하나입니다. 지금까지의 결과에 따르면, 모델은 사고 과정에서 명시적으로 언급하지 않은 요인에 따라 결정을 내리는 경우가 많습니다. 즉, 현재 모델의 사고 과정을 모니터링한다고 해서 안전성에 대해 강하게 주장할 수는 없습니다.

셋째, 안전 및 보안상의 우려도 있습니다. 악의적인 사용자가 공개된 사고 과정을 활용해 Claude를 더 효과적으로 탈옥(jailbreak)시킬 전략을 세울 수 있습니다. 더 나아가, 훈련 중에 내부 사고가 공개된다는 사실을 모델이 학습하게 되면, 덜 예측 가능한 방식으로 사고하거나, 일부 생각을 의도적으로 숨기도록 유도될 수도 있습니다.

이러한 우려는 미래의 더 강력한 Claude 버전에서 특히 중요해질 것입니다. 우리는 향후 릴리즈에서 사고 과정을 공개할지 여부의 장단점을 신중히 따질 예정입니다. 당분간 Claude 3.7 Sonnet의 가시적 사고 과정은 연구 미리보기(research preview)로 간주해야 합니다.

Claude 사고의 새로운 테스트

에이전트로서의 Claude

Claude 3.7 Sonnet은 "액션 스케일링(action scaling)"이라 부를 수 있는 향상된 기능을 갖췄습니다. 반복적으로 함수를 호출하고, 환경 변화에 반응하며, 오픈엔디드(open-ended)한 작업이 완료될 때까지 계속할 수 있습니다. 예를 들어, 컴퓨터를 사용하는 작업: Claude는 가상 마우스 클릭과 키보드 입력을 통해 사용자를 대신해 작업을 수행할 수 있습니다. 이전 버전과 비교해 Claude 3.7 Sonnet은 더 많은 턴과 시간, 연산 자원을 할당할 수 있어 결과가 더 좋아집니다.

OSWorld라는 평가에서 Claude 3.7 Sonnet의 향상된 멀티모달 에이전트 능력을 확인할 수 있습니다. 초기에는 약간 더 나은 수준에서 시작하지만, 시간이 지날수록 가상 컴퓨터와 상호작용을 계속하면서 성능 차이가 커집니다.

(그래프: Claude 3.5 Sonnet과 3.7 Sonnet의 OSWorld 평가 성능 비교)

Claude가 포켓몬을 플레이하다

확장된 사고와 에이전트 훈련이 결합되면서 Claude는 OSWorld 같은 표준 평가뿐 아니라, 예상치 못한 과제에서도 뛰어난 성과를 보입니다.

예를 들어, Game Boy 클래식 게임 _포켓몬 레드_를 플레이하는 것입니다. Claude에 기본 메모리, 화면 픽셀 입력, 버튼 입력 함수 호출 기능을 제공해, 일반적인 컨텍스트 한계를 넘어 수만 번의 상호작용 동안 지속적으로 게임을 진행할 수 있게 했습니다.

아래 그래프는 Claude 3.7 Sonnet과 이전 Sonnet 버전의 포켓몬 진행 상황을 보여줍니다. 이전 버전은 게임 초반에서 막혔지만, 3.7 Sonnet은 세 명의 체육관 관장(보스)을 이기고 배지를 획득하는 등 훨씬 더 멀리 나아갔습니다. Claude 3.7 Sonnet은 다양한 전략을 시도하고, 이전 가정을 의심하며, 스스로 능력을 개선해 나갑니다.

(그래프: 다양한 Sonnet 모델의 포켓몬 플레이 성과 비교)

포켓몬은 Claude 3.7 Sonnet의 능력을 재미있게 보여주는 예시지만, 이러한 능력은 게임을 넘어 실제 세계의 다양한 AI 에이전트 개발에 큰 영향을 줄 것입니다.

직렬 및 병렬 테스트 타임 컴퓨트 스케일링

Claude 3.7 Sonnet이 확장된 사고 기능을 사용할 때, "직렬 테스트 타임 컴퓨트(serial test-time compute)"의 이점을 누린다고 볼 수 있습니다. 즉, 최종 출력을 내기 전 여러 단계의 추론을 순차적으로 거치며, 그만큼 더 많은 연산 자원을 사용합니다. 일반적으로, "사고 토큰(thinking tokens)"을 더 많이 허용할수록 수학 문제 등에서 정확도가 로그함수적으로 향상됩니다.

(그래프: 사고 토큰 수에 따른 수학 성능 향상)

연구진은 병렬 테스트 타임 컴퓨트로 성능을 높이는 실험도 진행했습니다. 여러 독립적인 사고 과정을 샘플링한 뒤, 정답을 미리 알지 못한 상태에서 최적의 답을 선택하는 방식입니다. 예를 들어, 다수결(majority voting)이나, 또 다른 언어 모델이 답을 평가해 최적의 답을 고르는 방법 등이 있습니다. 이런 전략은 다른 AI 모델 평가에서도 보고된 바 있습니다.

GPQA(생물, 화학, 물리 등 고난도 문제 세트) 평가에서 병렬 테스트 타임 컴퓨트 스케일링을 적용해, 256개의 독립 샘플, 학습된 스코어링 모델, 최대 64k 토큰 사고 예산을 활용한 결과, Claude 3.7 Sonnet은 84.8%(물리 서브스코어 96.5%)의 점수를 기록했습니다. 다수결과 스코어링 모델 방식 모두에서 성능이 크게 향상되었습니다.

(그래프: GPQA 평가에서 병렬 스케일링 방식별 성능 비교)

이런 방법을 통해 Claude의 답변 품질을 대기 시간 없이 높일 수 있습니다. Claude는 여러 사고 과정을 동시에 진행해 더 다양한 접근을 시도하고, 더 자주 정답에 도달할 수 있습니다. 병렬 테스트 타임 컴퓨트 스케일링은 현재 배포된 모델에는 적용되지 않았지만, 앞으로도 연구를 계속할 예정입니다.

Claude 3.7 Sonnet의 안전 메커니즘

AI 안전 레벨: Anthropic의 Responsible Scaling Policy에 따라, 적절한 안전·보안 조치가 마련되지 않으면 모델을 훈련·배포하지 않습니다. Frontier Red Team과 Alignment Stress Testing 팀이 Claude 3.7 Sonnet에 대해 광범위한 테스트를 진행해, 기존 ASL-2(안전 레벨 2) 기준이 여전히 적합함을 확인했습니다. 동시에, 모델의 전반적 능력과 정교함이 크게 향상되었습니다. CBRN(화학·생물·방사능·핵) 관련 작업에서, 모델 지원을 받은 참가자가 비지원 참가자보다 더 멀리 나아갔지만, 모든 시도는 치명적인 실패로 성공에 이르지 못했습니다.

전문가 레드팀의 피드백은 혼재되어 있습니다. 일부 전문가는 CBRN 분야에서 모델의 지식이 향상되었다고 평가했으나, 치명적 실패 빈도가 높아 실제 완전한 작업 수행에는 이르지 못했습니다. 우리는 타깃 분류기와 모니터링 시스템 개발·배포를 가속화해 ASL-2 조치를 강화하고 있습니다.

향후 더 강력한 모델에는 ASL-3 기준 적용이 필요할 수 있습니다. 최근에는 탈옥 방지용 헌법 분류기(Constitutional Classifiers) 등 다양한 노력을 통해 ASL-3 기준 준비를 하고 있습니다.

가시적 사고 과정: ASL-2에서도 Claude 3.7 Sonnet의 가시적 확장 사고 기능은 새롭기 때문에, 별도의 안전장치가 필요합니다. 드물게, 사고 과정에 잠재적으로 유해한 내용(아동 안전, 사이버 공격, 위험 무기 등)이 포함될 수 있습니다. 이 경우 사고 과정이 암호화되어, 해당 부분은 사용자에게 보이지 않고 "이 응답의 나머지 사고 과정은 제공되지 않습니다"라는 메시지만 표시됩니다. 이런 암호화는 해로울 가능성이 높은 경우에만 드물게 발생하도록 설계되었습니다.

컴퓨터 사용: Claude의 컴퓨터 사용 능력(사용자 화면을 보고 작업을 대신 수행하는 기능)에도 안전장치를 강화했습니다. 프롬프트 인젝션(prompt injection) 공격(악의적 메시지로 Claude를 속여 의도치 않은 행동을 유도하는 공격)에 대한 방어가 크게 향상되었습니다. 새로운 훈련, 시스템 프롬프트, 분류기 도입으로, 이런 공격을 88% 차단(기존 74% 대비)할 수 있게 되었습니다.

이상은 Claude 3.7 Sonnet의 안전 관련 주요 작업의 일부 요약입니다. 더 자세한 정보와 분석 결과, 다양한 예시는 전체 시스템 카드(System Card)에서 확인할 수 있습니다.