Kann ein 1B LLM einen 405B LLM übertreffen? Neubewertung der rechenoptimalen Skalierung zur Testzeit.
Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling
February 10, 2025
Autoren: Runze Liu, Junqi Gao, Jian Zhao, Kaiyan Zhang, Xiu Li, Biqing Qi, Wanli Ouyang, Bowen Zhou
cs.AI
Zusammenfassung
Test-Time Scaling (TTS) ist eine wichtige Methode zur Verbesserung der Leistung von Large Language Models (LLMs) durch zusätzliche Berechnungen während der Inferenzphase. Allerdings analysieren aktuelle Studien nicht systematisch, wie Policy-Modelle, Process Reward Models (PRMs) und die Schwierigkeit des Problems TTS beeinflussen. Dieser Mangel an Analyse begrenzt das Verständnis und die praktische Anwendung von TTS-Methoden. In diesem Artikel konzentrieren wir uns auf zwei Kernfragen: (1) Was ist der optimale Ansatz, um die Testzeitberechnung über verschiedene Policy-Modelle, PRMs und Schwierigkeitsgrade von Problemen zu skalieren? (2) Inwieweit kann erweiterte Berechnung die Leistung von LLMs bei komplexen Aufgaben verbessern, und können kleinere Sprachmodelle größere durch diesen Ansatz übertreffen? Durch umfassende Experimente an MATH-500 und anspruchsvollen AIME24-Aufgaben haben wir folgende Beobachtungen gemacht: (1) Die rechenoptimale TTS-Strategie hängt stark von der Wahl des Policy-Modells, PRM und der Problemschwierigkeit ab. (2) Mit unserer rechenoptimalen TTS-Strategie können extrem kleine Policy-Modelle größere Modelle übertreffen. Zum Beispiel kann ein 1B LLM einen 405B LLM bei MATH-500 übertreffen. Darüber hinaus übertrifft auf sowohl MATH-500 als auch AIME24 ein 0.5B LLM GPT-4o, ein 3B LLM übertrifft einen 405B LLM, und ein 7B LLM schlägt o1 und DeepSeek-R1, und das mit höherer Inferenzeffizienz. Diese Ergebnisse zeigen die Bedeutung der Anpassung von TTS-Strategien an die spezifischen Merkmale jeder Aufgabe und jedes Modells und deuten darauf hin, dass TTS ein vielversprechender Ansatz zur Verbesserung der Denkfähigkeiten von LLMs ist.
English
Test-Time Scaling (TTS) is an important method for improving the performance
of Large Language Models (LLMs) by using additional computation during the
inference phase. However, current studies do not systematically analyze how
policy models, Process Reward Models (PRMs), and problem difficulty influence
TTS. This lack of analysis limits the understanding and practical use of TTS
methods. In this paper, we focus on two core questions: (1) What is the optimal
approach to scale test-time computation across different policy models, PRMs,
and problem difficulty levels? (2) To what extent can extended computation
improve the performance of LLMs on complex tasks, and can smaller language
models outperform larger ones through this approach? Through comprehensive
experiments on MATH-500 and challenging AIME24 tasks, we have the following
observations: (1) The compute-optimal TTS strategy is highly dependent on the
choice of policy model, PRM, and problem difficulty. (2) With our
compute-optimal TTS strategy, extremely small policy models can outperform
larger models. For example, a 1B LLM can exceed a 405B LLM on MATH-500.
Moreover, on both MATH-500 and AIME24, a 0.5B LLM outperforms GPT-4o, a 3B LLM
surpasses a 405B LLM, and a 7B LLM beats o1 and DeepSeek-R1, while with higher
inference efficiency. These findings show the significance of adapting TTS
strategies to the specific characteristics of each task and model and indicate
that TTS is a promising approach for enhancing the reasoning abilities of LLMs.Summary
AI-Generated Summary