ChatPaper.aiChatPaper

테스트 시간 계산에서의 역스케일링

Inverse Scaling in Test-Time Compute

July 19, 2025
저자: Aryo Pradipta Gema, Alexander Hägele, Runjin Chen, Andy Arditi, Jacob Goldman-Wetzler, Kit Fraser-Taliente, Henry Sleight, Linda Petrini, Julian Michael, Beatrice Alex, Pasquale Minervini, Yanda Chen, Joe Benton, Ethan Perez
cs.AI

초록

우리는 대형 추론 모델(Large Reasoning Models, LRMs)의 추론 길이를 연장할 때 성능이 저하되는 평가 과제를 구성하여, 테스트 시점 계산량과 정확도 간의 역비례 관계를 보여준다. 우리의 평가 과제는 네 가지 범주로 구성된다: 방해 요소가 포함된 단순 계수 과제, 잡음 특성이 포함된 회귀 과제, 제약 조건 추적이 필요한 연역 과제, 그리고 고급 AI 위험 과제. 모델이 더 오래 추론할 때 발생하는 다섯 가지 고유한 실패 모드를 확인하였다: 1) Claude 모델은 관련 없는 정보에 점점 더 주의가 분산된다; 2) OpenAI o-시리즈 모델은 방해 요소에 저항하지만 문제 프레이밍에 과적합된다; 3) 모델은 합리적인 사전 지식에서 잡음 상관관계로 전환된다; 4) 모든 모델은 복잡한 연역 과제에 집중하는 데 어려움을 보인다; 5) 연장된 추론은 우려스러운 행동을 증폭시킬 수 있으며, Claude Sonnet 4는 자기 보존 표현이 증가한다. 이러한 결과는 테스트 시점 계산량 확장이 모델 능력 향상에 유망하지만, 문제가 있는 추론 패턴을 의도치 않게 강화할 수 있음을 시사한다. 우리의 결과는 다양한 추론 길이에 걸쳐 모델을 평가하여 LRMs의 이러한 실패 모드를 식별하고 해결하는 것의 중요성을 입증한다.
English
We construct evaluation tasks where extending the reasoning length of Large Reasoning Models (LRMs) deteriorates performance, exhibiting an inverse scaling relationship between test-time compute and accuracy. Our evaluation tasks span four categories: simple counting tasks with distractors, regression tasks with spurious features, deduction tasks with constraint tracking, and advanced AI risks. We identify five distinct failure modes when models reason for longer: 1) Claude models become increasingly distracted by irrelevant information; 2) OpenAI o-series models resist distractors but overfit to problem framings; 3) models shift from reasonable priors to spurious correlations; 4) all models show difficulties in maintaining focus on complex deductive tasks; and 5) extended reasoning may amplify concerning behaviors, with Claude Sonnet 4 showing increased expressions of self-preservation. These findings suggest that while test-time compute scaling remains promising for improving model capabilities, it may inadvertently reinforce problematic reasoning patterns. Our results demonstrate the importance of evaluating models across diverse reasoning lengths to identify and address these failure modes in LRMs.
PDF223July 22, 2025