Est-ce que 1 milliard de LLM peut surpasser 405 milliards de LLM ? Repenser l'échelle de calcul optimale au moment des tests
Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling
February 10, 2025
Auteurs: Runze Liu, Junqi Gao, Jian Zhao, Kaiyan Zhang, Xiu Li, Biqing Qi, Wanli Ouyang, Bowen Zhou
cs.AI
Résumé
Le dimensionnement à l'échelle du temps de test (TTS) est une méthode importante pour améliorer les performances des Grands Modèles de Langage (LLM) en utilisant des calculs supplémentaires pendant la phase d'inférence. Cependant, les études actuelles n'analysent pas systématiquement comment les modèles de politique, les Modèles de Récompense de Processus (PRM) et la difficulté des problèmes influencent le TTS. Ce manque d'analyse limite la compréhension et l'utilisation pratique des méthodes TTS. Dans cet article, nous nous concentrons sur deux questions fondamentales : (1) Quelle est l'approche optimale pour dimensionner les calculs de temps de test à travers différents modèles de politique, PRM et niveaux de difficulté des problèmes ? (2) Dans quelle mesure des calculs étendus peuvent-ils améliorer les performances des LLM sur des tâches complexes, et des modèles de langage plus petits peuvent-ils surpasser les plus grands grâce à cette approche ? À travers des expériences approfondies sur MATH-500 et les tâches AIME24 difficiles, nous avons les observations suivantes : (1) La stratégie TTS optimale en termes de calcul dépend fortement du choix du modèle de politique, du PRM et de la difficulté du problème. (2) Avec notre stratégie TTS optimale en termes de calcul, des modèles de politique extrêmement petits peuvent surpasser des modèles plus grands. Par exemple, un LLM de 1B peut dépasser un LLM de 405B sur MATH-500. De plus, sur MATH-500 et AIME24, un LLM de 0,5B surpasse GPT-4o, un LLM de 3B dépasse un LLM de 405B, et un LLM de 7B bat o1 et DeepSeek-R1, tout en offrant une efficacité d'inférence supérieure. Ces résultats montrent l'importance d'adapter les stratégies TTS aux caractéristiques spécifiques de chaque tâche et modèle, et indiquent que le TTS est une approche prometteuse pour améliorer les capacités de raisonnement des LLM.
English
Test-Time Scaling (TTS) is an important method for improving the performance
of Large Language Models (LLMs) by using additional computation during the
inference phase. However, current studies do not systematically analyze how
policy models, Process Reward Models (PRMs), and problem difficulty influence
TTS. This lack of analysis limits the understanding and practical use of TTS
methods. In this paper, we focus on two core questions: (1) What is the optimal
approach to scale test-time computation across different policy models, PRMs,
and problem difficulty levels? (2) To what extent can extended computation
improve the performance of LLMs on complex tasks, and can smaller language
models outperform larger ones through this approach? Through comprehensive
experiments on MATH-500 and challenging AIME24 tasks, we have the following
observations: (1) The compute-optimal TTS strategy is highly dependent on the
choice of policy model, PRM, and problem difficulty. (2) With our
compute-optimal TTS strategy, extremely small policy models can outperform
larger models. For example, a 1B LLM can exceed a 405B LLM on MATH-500.
Moreover, on both MATH-500 and AIME24, a 0.5B LLM outperforms GPT-4o, a 3B LLM
surpasses a 405B LLM, and a 7B LLM beats o1 and DeepSeek-R1, while with higher
inference efficiency. These findings show the significance of adapting TTS
strategies to the specific characteristics of each task and model and indicate
that TTS is a promising approach for enhancing the reasoning abilities of LLMs.Summary
AI-Generated Summary