De illusie van afnemende meeropbrengsten: Het meten van uitvoering op lange termijn in LLM's
The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs
September 11, 2025
Auteurs: Akshit Sinha, Arvindh Arun, Shashwat Goel, Steffen Staab, Jonas Geiping
cs.AI
Samenvatting
Levert de voortdurende schaalvergroting van grote taalmodellen (LLMs) afnemende rendementen op? De werkelijke waarde komt vaak voort uit de lengte van de taak die een agent kan voltooien. We beginnen dit werk met de observatie van het eenvoudige maar contra-intuïtieve feit dat marginale verbeteringen in nauwkeurigheid per stap kunnen leiden tot exponentiële verbeteringen in de lengte van een taak die een model succesvol kan voltooien. Vervolgens betogen we dat fouten van LLMs bij het verlengen van eenvoudige taken voortkomen uit uitvoeringsfouten, in plaats van een onvermogen om te redeneren. We stellen voor om de uitvoeringscapaciteit te isoleren door expliciet de kennis en het plan te verschaffen die nodig zijn om een taak met een lange horizon op te lossen. We ontdekken dat grotere modellen aanzienlijk meer stappen correct kunnen uitvoeren, zelfs wanneer kleinere modellen een nauwkeurigheid van 100% per stap hebben. We observeren dat de nauwkeurigheid per stap van modellen afneemt naarmate het aantal stappen toeneemt. Dit is niet alleen te wijten aan beperkingen in lange contexten — merkwaardig genoeg observeren we een zelfconditionerend effect — modellen worden waarschijnlijker om fouten te maken wanneer de context hun fouten uit eerdere stappen bevat. Zelfconditionering vermindert niet alleen door het schalen van de modelgrootte. In tegenstelling daarmee conditioneren recente denkmodellen zichzelf niet en kunnen ze ook veel langere taken in één stap uitvoeren. We sluiten af door frontier denkmodellen te benchmarken op de lengte van de taak die ze in één stap kunnen uitvoeren. Al met al hopen we, door te focussen op het vermogen om uit te voeren, debatten te verzoenen over hoe LLMs complexe redeneerproblemen kunnen oplossen, maar falen bij eenvoudige taken wanneer deze langer worden gemaakt, en benadrukken we de enorme voordelen van het schalen van modelgrootte en sequentiële test-tijd berekeningen voor taken met een lange horizon.
English
Does continued scaling of large language models (LLMs) yield diminishing
returns? Real-world value often stems from the length of task an agent can
complete. We start this work by observing the simple but counterintuitive fact
that marginal gains in single-step accuracy can compound into exponential
improvements in the length of a task a model can successfully complete. Then,
we argue that failures of LLMs when simple tasks are made longer arise from
mistakes in execution, rather than an inability to reason. We propose isolating
execution capability, by explicitly providing the knowledge and plan needed to
solve a long-horizon task. We find that larger models can correctly execute
significantly more turns even when small models have 100\% single-turn
accuracy. We observe that the per-step accuracy of models degrades as the
number of steps increases. This is not just due to long-context limitations --
curiously, we observe a self-conditioning effect -- models become more likely
to make mistakes when the context contains their errors from prior turns.
Self-conditioning does not reduce by just scaling the model size. In contrast,
recent thinking models do not self-condition, and can also execute much longer
tasks in a single turn. We conclude by benchmarking frontier thinking models on
the length of task they can execute in a single turn. Overall, by focusing on
the ability to execute, we hope to reconcile debates on how LLMs can solve
complex reasoning problems yet fail at simple tasks when made longer, and
highlight the massive benefits of scaling model size and sequential test-time
compute for long-horizon tasks.