¿Puede 1B LLM superar a 405B LLM? Repensando la Escalabilidad Óptima de Cálculo en Tiempo de Prueba.
Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling
February 10, 2025
Autores: Runze Liu, Junqi Gao, Jian Zhao, Kaiyan Zhang, Xiu Li, Biqing Qi, Wanli Ouyang, Bowen Zhou
cs.AI
Resumen
La Escalabilidad en Tiempo de Prueba (ETP) es un método importante para mejorar el rendimiento de los Modelos de Lenguaje Grandes (MLG) mediante el uso de cálculos adicionales durante la fase de inferencia. Sin embargo, los estudios actuales no analizan sistemáticamente cómo los modelos de política, los Modelos de Recompensa de Proceso (MRP) y la dificultad del problema influyen en la ETP. Esta falta de análisis limita la comprensión y el uso práctico de los métodos de ETP. En este documento, nos enfocamos en dos preguntas fundamentales: (1) ¿Cuál es el enfoque óptimo para escalar el cálculo en tiempo de prueba entre diferentes modelos de política, MRP y niveles de dificultad del problema? (2) ¿Hasta qué punto puede el cálculo extendido mejorar el rendimiento de los MLG en tareas complejas, y pueden los modelos de lenguaje más pequeños superar a los más grandes mediante este enfoque? A través de experimentos exhaustivos en MATH-500 y desafiantes tareas AIME24, tenemos las siguientes observaciones: (1) La estrategia de ETP óptima en cálculo depende en gran medida de la elección del modelo de política, MRP y dificultad del problema. (2) Con nuestra estrategia de ETP óptima en cálculo, modelos de política extremadamente pequeños pueden superar a modelos más grandes. Por ejemplo, un MLG de 1B puede superar a un MLG de 405B en MATH-500. Además, tanto en MATH-500 como en AIME24, un MLG de 0.5B supera a GPT-4o, un MLG de 3B supera a un MLG de 405B, y un MLG de 7B vence a o1 y DeepSeek-R1, con una eficiencia de inferencia más alta. Estos hallazgos muestran la importancia de adaptar las estrategias de ETP a las características específicas de cada tarea y modelo, e indican que la ETP es un enfoque prometedor para mejorar las capacidades de razonamiento de los MLG.
English
Test-Time Scaling (TTS) is an important method for improving the performance
of Large Language Models (LLMs) by using additional computation during the
inference phase. However, current studies do not systematically analyze how
policy models, Process Reward Models (PRMs), and problem difficulty influence
TTS. This lack of analysis limits the understanding and practical use of TTS
methods. In this paper, we focus on two core questions: (1) What is the optimal
approach to scale test-time computation across different policy models, PRMs,
and problem difficulty levels? (2) To what extent can extended computation
improve the performance of LLMs on complex tasks, and can smaller language
models outperform larger ones through this approach? Through comprehensive
experiments on MATH-500 and challenging AIME24 tasks, we have the following
observations: (1) The compute-optimal TTS strategy is highly dependent on the
choice of policy model, PRM, and problem difficulty. (2) With our
compute-optimal TTS strategy, extremely small policy models can outperform
larger models. For example, a 1B LLM can exceed a 405B LLM on MATH-500.
Moreover, on both MATH-500 and AIME24, a 0.5B LLM outperforms GPT-4o, a 3B LLM
surpasses a 405B LLM, and a 7B LLM beats o1 and DeepSeek-R1, while with higher
inference efficiency. These findings show the significance of adapting TTS
strategies to the specific characteristics of each task and model and indicate
that TTS is a promising approach for enhancing the reasoning abilities of LLMs.Summary
AI-Generated Summary