Escalado en Tiempo de Inferencia para Tareas Complejas: Estado Actual y Perspectivas Futuras
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead
March 31, 2025
Autores: Vidhisha Balachandran, Jingya Chen, Lingjiao Chen, Shivam Garg, Neel Joshi, Yash Lara, John Langford, Besmira Nushi, Vibhav Vineet, Yue Wu, Safoora Yousefi
cs.AI
Resumen
El escalado en tiempo de inferencia puede mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs) en problemas complejos que se benefician de la resolución paso a paso. Aunque alargar las notas generadas ha demostrado ser efectivo para tareas matemáticas, el impacto más amplio de este enfoque en otras tareas sigue siendo menos claro. En este trabajo, investigamos los beneficios y limitaciones de los métodos de escalado en nueve modelos de última generación y ocho tareas desafiantes, que incluyen razonamiento matemático y STEM, planificación de calendarios, problemas NP-difíciles, navegación y razonamiento espacial. Comparamos modelos convencionales (por ejemplo, GPT-4o) con modelos ajustados para el escalado en tiempo de inferencia (por ejemplo, o1) mediante protocolos de evaluación que involucran llamadas repetidas al modelo, ya sea de forma independiente o secuencial con retroalimentación. Estas evaluaciones aproximan los límites inferiores y superiores de rendimiento y el potencial de mejoras futuras para cada modelo, ya sea a través de un entrenamiento mejorado o sistemas de inferencia multimodelo. Nuestro extenso análisis empírico revela que las ventajas del escalado en tiempo de inferencia varían según la tarea y disminuyen a medida que aumenta la complejidad del problema. Además, simplemente usar más tokens no necesariamente se traduce en una mayor precisión en estos regímenes desafiantes. Los resultados de múltiples ejecuciones independientes con modelos convencionales que utilizan verificadores perfectos muestran que, para algunas tareas, estos modelos pueden alcanzar un rendimiento cercano al promedio de los modelos de razonamiento más avanzados de hoy. Sin embargo, para otras tareas, persiste una brecha significativa de rendimiento, incluso en regímenes de escalado muy altos. Alentadoramente, todos los modelos muestran ganancias significativas cuando la inferencia se escala aún más con verificadores perfectos o retroalimentación fuerte, lo que sugiere un amplio potencial para mejoras futuras.
English
Inference-time scaling can enhance the reasoning capabilities of large
language models (LLMs) on complex problems that benefit from step-by-step
problem solving. Although lengthening generated scratchpads has proven
effective for mathematical tasks, the broader impact of this approach on other
tasks remains less clear. In this work, we investigate the benefits and
limitations of scaling methods across nine state-of-the-art models and eight
challenging tasks, including math and STEM reasoning, calendar planning,
NP-hard problems, navigation, and spatial reasoning. We compare conventional
models (e.g., GPT-4o) with models fine-tuned for inference-time scaling (e.g.,
o1) through evaluation protocols that involve repeated model calls, either
independently or sequentially with feedback. These evaluations approximate
lower and upper performance bounds and potential for future performance
improvements for each model, whether through enhanced training or multi-model
inference systems. Our extensive empirical analysis reveals that the advantages
of inference-time scaling vary across tasks and diminish as problem complexity
increases. In addition, simply using more tokens does not necessarily translate
to higher accuracy in these challenging regimes. Results from multiple
independent runs with conventional models using perfect verifiers show that,
for some tasks, these models can achieve performance close to the average
performance of today's most advanced reasoning models. However, for other
tasks, a significant performance gap remains, even in very high scaling
regimes. Encouragingly, all models demonstrate significant gains when inference
is further scaled with perfect verifiers or strong feedback, suggesting ample
potential for future improvements.Summary
AI-Generated Summary