Kan een 1B LLM 405B LLM overtreffen? Het heroverwegen van schaalbaarheid op testtijd optimaal rekenvermogen.
Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling
February 10, 2025
Auteurs: Runze Liu, Junqi Gao, Jian Zhao, Kaiyan Zhang, Xiu Li, Biqing Qi, Wanli Ouyang, Bowen Zhou
cs.AI
Samenvatting
Test-Time Scaling (TTS) is een belangrijke methode om de prestaties van Grote Taalmodellen (LLMs) te verbeteren door extra berekeningen tijdens de inferentiefase te gebruiken. Echter, huidige studies analyseren niet systematisch hoe beleidsmodellen, Proces Beloningsmodellen (PRMs), en probleemcomplexiteit invloed hebben op TTS. Dit gebrek aan analyse beperkt het begrip en praktische gebruik van TTS methoden. In dit artikel richten we ons op twee kernvragen: (1) Wat is de optimale aanpak om testtijd berekeningen te schalen over verschillende beleidsmodellen, PRMs, en probleemcomplexiteitsniveaus? (2) In hoeverre kan uitgebreide berekening de prestaties van LLMs verbeteren op complexe taken, en kunnen kleinere taalmodellen grotere overtreffen via deze aanpak? Door uitgebreide experimenten op MATH-500 en uitdagende AIME24 taken hebben we de volgende observaties: (1) De berekeningsoptimale TTS strategie is sterk afhankelijk van de keuze van beleidsmodel, PRM, en probleemcomplexiteit. (2) Met onze berekeningsoptimale TTS strategie kunnen extreem kleine beleidsmodellen grotere modellen overtreffen. Bijvoorbeeld, een 1B LLM kan een 405B LLM overtreffen op MATH-500. Bovendien, op zowel MATH-500 als AIME24, presteert een 0.5B LLM beter dan GPT-4o, een 3B LLM overtreft een 405B LLM, en een 7B LLM verslaat o1 en DeepSeek-R1, met hogere inferentie-efficiëntie. Deze bevindingen tonen de significantie van het aanpassen van TTS strategieën aan de specifieke kenmerken van elke taak en model en geven aan dat TTS een veelbelovende aanpak is om de redeneervaardigheden van LLMs te verbeteren.
English
Test-Time Scaling (TTS) is an important method for improving the performance
of Large Language Models (LLMs) by using additional computation during the
inference phase. However, current studies do not systematically analyze how
policy models, Process Reward Models (PRMs), and problem difficulty influence
TTS. This lack of analysis limits the understanding and practical use of TTS
methods. In this paper, we focus on two core questions: (1) What is the optimal
approach to scale test-time computation across different policy models, PRMs,
and problem difficulty levels? (2) To what extent can extended computation
improve the performance of LLMs on complex tasks, and can smaller language
models outperform larger ones through this approach? Through comprehensive
experiments on MATH-500 and challenging AIME24 tasks, we have the following
observations: (1) The compute-optimal TTS strategy is highly dependent on the
choice of policy model, PRM, and problem difficulty. (2) With our
compute-optimal TTS strategy, extremely small policy models can outperform
larger models. For example, a 1B LLM can exceed a 405B LLM on MATH-500.
Moreover, on both MATH-500 and AIME24, a 0.5B LLM outperforms GPT-4o, a 3B LLM
surpasses a 405B LLM, and a 7B LLM beats o1 and DeepSeek-R1, while with higher
inference efficiency. These findings show the significance of adapting TTS
strategies to the specific characteristics of each task and model and indicate
that TTS is a promising approach for enhancing the reasoning abilities of LLMs.Summary
AI-Generated Summary