ChatPaper.aiChatPaper

La ilusión de los rendimientos decrecientes: Medición de la ejecución a largo plazo en los LLM

The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs

September 11, 2025
Autores: Akshit Sinha, Arvindh Arun, Shashwat Goel, Steffen Staab, Jonas Geiping
cs.AI

Resumen

¿El escalamiento continuo de los modelos de lenguaje grandes (LLMs) produce rendimientos decrecientes? El valor en el mundo real a menudo proviene de la longitud de la tarea que un agente puede completar. Comenzamos este trabajo observando el hecho simple pero contraintuitivo de que las ganancias marginales en la precisión de un solo paso pueden traducirse en mejoras exponenciales en la longitud de una tarea que un modelo puede completar con éxito. Luego, argumentamos que los fallos de los LLMs cuando las tareas simples se hacen más largas surgen de errores en la ejecución, en lugar de una incapacidad para razonar. Proponemos aislar la capacidad de ejecución, proporcionando explícitamente el conocimiento y el plan necesarios para resolver una tarea de horizonte largo. Encontramos que los modelos más grandes pueden ejecutar correctamente significativamente más turnos, incluso cuando los modelos pequeños tienen una precisión del 100% en un solo turno. Observamos que la precisión por paso de los modelos se degrada a medida que aumenta el número de pasos. Esto no se debe solo a las limitaciones del contexto largo —curiosamente, observamos un efecto de autocondicionamiento— los modelos se vuelven más propensos a cometer errores cuando el contexto contiene sus errores de turnos anteriores. El autocondicionamiento no se reduce simplemente escalando el tamaño del modelo. En contraste, los modelos de pensamiento recientes no se autocondicionan y también pueden ejecutar tareas mucho más largas en un solo turno. Concluimos evaluando modelos de pensamiento de vanguardia en la longitud de la tarea que pueden ejecutar en un solo turno. En general, al enfocarnos en la capacidad de ejecución, esperamos reconciliar los debates sobre cómo los LLMs pueden resolver problemas de razonamiento complejos, pero fallar en tareas simples cuando se hacen más largas, y destacar los enormes beneficios de escalar el tamaño del modelo y el cómputo secuencial en tiempo de prueba para tareas de horizonte largo.
English
Does continued scaling of large language models (LLMs) yield diminishing returns? Real-world value often stems from the length of task an agent can complete. We start this work by observing the simple but counterintuitive fact that marginal gains in single-step accuracy can compound into exponential improvements in the length of a task a model can successfully complete. Then, we argue that failures of LLMs when simple tasks are made longer arise from mistakes in execution, rather than an inability to reason. We propose isolating execution capability, by explicitly providing the knowledge and plan needed to solve a long-horizon task. We find that larger models can correctly execute significantly more turns even when small models have 100\% single-turn accuracy. We observe that the per-step accuracy of models degrades as the number of steps increases. This is not just due to long-context limitations -- curiously, we observe a self-conditioning effect -- models become more likely to make mistakes when the context contains their errors from prior turns. Self-conditioning does not reduce by just scaling the model size. In contrast, recent thinking models do not self-condition, and can also execute much longer tasks in a single turn. We conclude by benchmarking frontier thinking models on the length of task they can execute in a single turn. Overall, by focusing on the ability to execute, we hope to reconcile debates on how LLMs can solve complex reasoning problems yet fail at simple tasks when made longer, and highlight the massive benefits of scaling model size and sequential test-time compute for long-horizon tasks.
PDF334September 15, 2025