¿Qué, Cómo, Dónde y Qué Tan Bien? Una Revisión sobre el Escalamiento en Tiempo de Prueba en Modelos de Lenguaje a Gran Escala
What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models
March 31, 2025
Autores: Qiyuan Zhang, Fuyuan Lyu, Zexu Sun, Lei Wang, Weixu Zhang, Zhihan Guo, Yufei Wang, Irwin King, Xue Liu, Chen Ma
cs.AI
Resumen
A medida que el entusiasmo por escalar el cómputo (datos y parámetros) en la era del preentrenamiento disminuyó gradualmente, la escalabilidad en tiempo de prueba (TTS, por sus siglas en inglés), también conocida como "cómputo en tiempo de prueba", ha surgido como un foco de investigación prominente. Estudios recientes demuestran que TTS puede potenciar aún más las capacidades de resolución de problemas de los modelos de lenguaje grandes (LLMs), permitiendo avances significativos no solo en tareas de razonamiento especializado, como matemáticas y programación, sino también en tareas generales como preguntas y respuestas abiertas. Sin embargo, a pesar del auge de esfuerzos recientes en esta área, sigue existiendo una necesidad urgente de una revisión exhaustiva que ofrezca una comprensión sistémica. Para llenar este vacío, proponemos un marco unificado y multidimensional estructurado en torno a cuatro dimensiones clave de la investigación en TTS: qué escalar, cómo escalar, dónde escalar y qué tan bien escalar. Basándonos en esta taxonomía, realizamos una revisión extensa de métodos, escenarios de aplicación y aspectos de evaluación, y presentamos una descomposición organizada que destaca los roles funcionales únicos de las técnicas individuales dentro del panorama más amplio de TTS. A partir de este análisis, sintetizamos las principales trayectorias de desarrollo de TTS hasta la fecha y ofrecemos pautas prácticas para su implementación. Además, identificamos varios desafíos abiertos y brindamos perspectivas sobre direcciones futuras prometedoras, incluyendo una mayor escalabilidad, la clarificación de la esencia funcional de las técnicas, la generalización a más tareas y más atribuciones.
English
As enthusiasm for scaling computation (data and parameters) in the
pretraining era gradually diminished, test-time scaling (TTS), also referred to
as ``test-time computing'' has emerged as a prominent research focus. Recent
studies demonstrate that TTS can further elicit the problem-solving
capabilities of large language models (LLMs), enabling significant
breakthroughs not only in specialized reasoning tasks, such as mathematics and
coding, but also in general tasks like open-ended Q&A. However, despite the
explosion of recent efforts in this area, there remains an urgent need for a
comprehensive survey offering a systemic understanding. To fill this gap, we
propose a unified, multidimensional framework structured along four core
dimensions of TTS research: what to scale, how to scale, where to scale, and
how well to scale. Building upon this taxonomy, we conduct an extensive review
of methods, application scenarios, and assessment aspects, and present an
organized decomposition that highlights the unique functional roles of
individual techniques within the broader TTS landscape. From this analysis, we
distill the major developmental trajectories of TTS to date and offer hands-on
guidelines for practical deployment. Furthermore, we identify several open
challenges and offer insights into promising future directions, including
further scaling, clarifying the functional essence of techniques, generalizing
to more tasks, and more attributions.Summary
AI-Generated Summary