감소하는 수익의 환상: 장기적 실행 측정을 통한 대형 언어 모델의 성과 분석
The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs
September 11, 2025
저자: Akshit Sinha, Arvindh Arun, Shashwat Goel, Steffen Staab, Jonas Geiping
cs.AI
초록
대규모 언어 모델(LLM)의 지속적인 확장은 수익 체감을 초래하는가? 실제 세계에서의 가치는 종종 에이전트가 완료할 수 있는 작업의 길이에서 비롯된다. 우리는 이 연구를 단일 단계 정확도의 한계적 개선이 모델이 성공적으로 완료할 수 있는 작업의 길이에 기하급수적인 개선을 가져올 수 있다는 간단하지만 직관에 반하는 사실을 관찰함으로써 시작한다. 그런 다음, 간단한 작업이 길어질 때 LLM의 실패가 추론 능력의 부재가 아니라 실행 과정에서의 실수에서 비롯된다고 주장한다. 우리는 장기적 작업을 해결하기 위해 필요한 지식과 계획을 명시적으로 제공함으로써 실행 능력을 분리하는 것을 제안한다. 우리는 더 큰 모델이 작은 모델이 단일 단계에서 100%의 정확도를 가질 때에도 훨씬 더 많은 단계를 올바르게 실행할 수 있음을 발견한다. 모델의 단계별 정확도는 단계 수가 증가함에 따라 저하되는 것을 관찰한다. 이는 단순히 장기 문맥의 한계 때문만은 아니다. 흥미롭게도, 우리는 자기 조건화 효과를 관찰한다. 즉, 모델은 이전 단계에서의 실수가 문맥에 포함될 때 실수를 할 가능성이 더 높아진다. 자기 조건화는 단순히 모델 크기를 확장함으로써 감소하지 않는다. 반면, 최근의 사고 모델은 자기 조건화를 하지 않으며, 단일 단계에서 훨씬 더 긴 작업을 실행할 수 있다. 우리는 최첨단 사고 모델이 단일 단계에서 실행할 수 있는 작업의 길이를 벤치마킹함으로써 결론을 내린다. 전반적으로, 실행 능력에 초점을 맞춤으로써, 우리는 LLM이 복잡한 추론 문제를 해결할 수 있으면서도 간단한 작업이 길어질 때 실패하는 이유에 대한 논쟁을 조정하고, 장기적 작업을 위해 모델 크기와 순차적 테스트 시간 계산을 확장하는 것의 엄청난 이점을 강조하고자 한다.
English
Does continued scaling of large language models (LLMs) yield diminishing
returns? Real-world value often stems from the length of task an agent can
complete. We start this work by observing the simple but counterintuitive fact
that marginal gains in single-step accuracy can compound into exponential
improvements in the length of a task a model can successfully complete. Then,
we argue that failures of LLMs when simple tasks are made longer arise from
mistakes in execution, rather than an inability to reason. We propose isolating
execution capability, by explicitly providing the knowledge and plan needed to
solve a long-horizon task. We find that larger models can correctly execute
significantly more turns even when small models have 100\% single-turn
accuracy. We observe that the per-step accuracy of models degrades as the
number of steps increases. This is not just due to long-context limitations --
curiously, we observe a self-conditioning effect -- models become more likely
to make mistakes when the context contains their errors from prior turns.
Self-conditioning does not reduce by just scaling the model size. In contrast,
recent thinking models do not self-condition, and can also execute much longer
tasks in a single turn. We conclude by benchmarking frontier thinking models on
the length of task they can execute in a single turn. Overall, by focusing on
the ability to execute, we hope to reconcile debates on how LLMs can solve
complex reasoning problems yet fail at simple tasks when made longer, and
highlight the massive benefits of scaling model size and sequential test-time
compute for long-horizon tasks.