Può un LLM da 1 miliardo superare un LLM da 405 miliardi? Riconsiderazione della scalabilità ottimale del calcolo al momento del test.

Abstract

Il Ridimensionamento del Tempo di Test (TTS) è un metodo importante per migliorare le prestazioni dei Grandi Modelli Linguistici (LLM) utilizzando calcoli aggiuntivi durante la fase di inferenza. Tuttavia, gli attuali studi non analizzano in modo sistematico come i modelli di politica, i Modelli di Ricompensa di Processo (PRM) e la difficoltà del problema influenzino il TTS. Questa mancanza di analisi limita la comprensione e l'uso pratico dei metodi TTS. In questo articolo, ci concentriamo su due domande fondamentali: (1) Qual è l'approccio ottimale per scalare i calcoli del tempo di test tra diversi modelli di politica, PRM e livelli di difficoltà del problema? (2) In che misura il calcolo esteso può migliorare le prestazioni dei LLM in compiti complessi, e i modelli linguistici più piccoli possono superare quelli più grandi con questo approccio? Attraverso esperimenti esaustivi su MATH-500 e compiti impegnativi AIME24, abbiamo le seguenti osservazioni: (1) La strategia TTS ottimale dal punto di vista del calcolo dipende fortemente dalla scelta del modello di politica, del PRM e della difficoltà del problema. (2) Con la nostra strategia TTS ottimale dal punto di vista del calcolo, modelli di politica estremamente piccoli possono superare modelli più grandi. Ad esempio, un LLM da 1B può superare un LLM da 405B in MATH-500. Inoltre, sia su MATH-500 che su AIME24, un LLM da 0.5B supera GPT-4o, un LLM da 3B supera un LLM da 405B, e un LLM da 7B batte o1 e DeepSeek-R1, con un'efficienza inferenziale più elevata. Queste scoperte dimostrano l'importanza dell'adattamento delle strategie TTS alle caratteristiche specifiche di ciascun compito e modello e indicano che il TTS è un approccio promettente per potenziare le capacità di ragionamento dei LLM.

English

Test-Time Scaling (TTS) is an important method for improving the performance of Large Language Models (LLMs) by using additional computation during the inference phase. However, current studies do not systematically analyze how policy models, Process Reward Models (PRMs), and problem difficulty influence TTS. This lack of analysis limits the understanding and practical use of TTS methods. In this paper, we focus on two core questions: (1) What is the optimal approach to scale test-time computation across different policy models, PRMs, and problem difficulty levels? (2) To what extent can extended computation improve the performance of LLMs on complex tasks, and can smaller language models outperform larger ones through this approach? Through comprehensive experiments on MATH-500 and challenging AIME24 tasks, we have the following observations: (1) The compute-optimal TTS strategy is highly dependent on the choice of policy model, PRM, and problem difficulty. (2) With our compute-optimal TTS strategy, extremely small policy models can outperform larger models. For example, a 1B LLM can exceed a 405B LLM on MATH-500. Moreover, on both MATH-500 and AIME24, a 0.5B LLM outperforms GPT-4o, a 3B LLM surpasses a 405B LLM, and a 7B LLM beats o1 and DeepSeek-R1, while with higher inference efficiency. These findings show the significance of adapting TTS strategies to the specific characteristics of each task and model and indicate that TTS is a promising approach for enhancing the reasoning abilities of LLMs.

Può un LLM da 1 miliardo superare un LLM da 405 miliardi? Riconsiderazione della scalabilità ottimale del calcolo al momento del test.

Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling

Abstract

Support