Kan een 1B LLM 405B LLM overtreffen? Het heroverwegen van schaalbaarheid op testtijd optimaal rekenvermogen.

Samenvatting

Test-Time Scaling (TTS) is een belangrijke methode om de prestaties van Grote Taalmodellen (LLMs) te verbeteren door extra berekeningen tijdens de inferentiefase te gebruiken. Echter, huidige studies analyseren niet systematisch hoe beleidsmodellen, Proces Beloningsmodellen (PRMs), en probleemcomplexiteit invloed hebben op TTS. Dit gebrek aan analyse beperkt het begrip en praktische gebruik van TTS methoden. In dit artikel richten we ons op twee kernvragen: (1) Wat is de optimale aanpak om testtijd berekeningen te schalen over verschillende beleidsmodellen, PRMs, en probleemcomplexiteitsniveaus? (2) In hoeverre kan uitgebreide berekening de prestaties van LLMs verbeteren op complexe taken, en kunnen kleinere taalmodellen grotere overtreffen via deze aanpak? Door uitgebreide experimenten op MATH-500 en uitdagende AIME24 taken hebben we de volgende observaties: (1) De berekeningsoptimale TTS strategie is sterk afhankelijk van de keuze van beleidsmodel, PRM, en probleemcomplexiteit. (2) Met onze berekeningsoptimale TTS strategie kunnen extreem kleine beleidsmodellen grotere modellen overtreffen. Bijvoorbeeld, een 1B LLM kan een 405B LLM overtreffen op MATH-500. Bovendien, op zowel MATH-500 als AIME24, presteert een 0.5B LLM beter dan GPT-4o, een 3B LLM overtreft een 405B LLM, en een 7B LLM verslaat o1 en DeepSeek-R1, met hogere inferentie-efficiëntie. Deze bevindingen tonen de significantie van het aanpassen van TTS strategieën aan de specifieke kenmerken van elke taak en model en geven aan dat TTS een veelbelovende aanpak is om de redeneervaardigheden van LLMs te verbeteren.

English

Test-Time Scaling (TTS) is an important method for improving the performance of Large Language Models (LLMs) by using additional computation during the inference phase. However, current studies do not systematically analyze how policy models, Process Reward Models (PRMs), and problem difficulty influence TTS. This lack of analysis limits the understanding and practical use of TTS methods. In this paper, we focus on two core questions: (1) What is the optimal approach to scale test-time computation across different policy models, PRMs, and problem difficulty levels? (2) To what extent can extended computation improve the performance of LLMs on complex tasks, and can smaller language models outperform larger ones through this approach? Through comprehensive experiments on MATH-500 and challenging AIME24 tasks, we have the following observations: (1) The compute-optimal TTS strategy is highly dependent on the choice of policy model, PRM, and problem difficulty. (2) With our compute-optimal TTS strategy, extremely small policy models can outperform larger models. For example, a 1B LLM can exceed a 405B LLM on MATH-500. Moreover, on both MATH-500 and AIME24, a 0.5B LLM outperforms GPT-4o, a 3B LLM surpasses a 405B LLM, and a 7B LLM beats o1 and DeepSeek-R1, while with higher inference efficiency. These findings show the significance of adapting TTS strategies to the specific characteristics of each task and model and indicate that TTS is a promising approach for enhancing the reasoning abilities of LLMs.

Kan een 1B LLM 405B LLM overtreffen? Het heroverwegen van schaalbaarheid op testtijd optimaal rekenvermogen.

Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling

Samenvatting

Support