Può un LLM da 1 miliardo superare un LLM da 405 miliardi? Riconsiderazione della scalabilità ottimale del calcolo al momento del test.Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time
Scaling
Il Ridimensionamento del Tempo di Test (TTS) è un metodo importante per migliorare le prestazioni dei Grandi Modelli Linguistici (LLM) utilizzando calcoli aggiuntivi durante la fase di inferenza. Tuttavia, gli attuali studi non analizzano in modo sistematico come i modelli di politica, i Modelli di Ricompensa di Processo (PRM) e la difficoltà del problema influenzino il TTS. Questa mancanza di analisi limita la comprensione e l'uso pratico dei metodi TTS. In questo articolo, ci concentriamo su due domande fondamentali: (1) Qual è l'approccio ottimale per scalare i calcoli del tempo di test tra diversi modelli di politica, PRM e livelli di difficoltà del problema? (2) In che misura il calcolo esteso può migliorare le prestazioni dei LLM in compiti complessi, e i modelli linguistici più piccoli possono superare quelli più grandi con questo approccio? Attraverso esperimenti esaustivi su MATH-500 e compiti impegnativi AIME24, abbiamo le seguenti osservazioni: (1) La strategia TTS ottimale dal punto di vista del calcolo dipende fortemente dalla scelta del modello di politica, del PRM e della difficoltà del problema. (2) Con la nostra strategia TTS ottimale dal punto di vista del calcolo, modelli di politica estremamente piccoli possono superare modelli più grandi. Ad esempio, un LLM da 1B può superare un LLM da 405B in MATH-500. Inoltre, sia su MATH-500 che su AIME24, un LLM da 0.5B supera GPT-4o, un LLM da 3B supera un LLM da 405B, e un LLM da 7B batte o1 e DeepSeek-R1, con un'efficienza inferenziale più elevata. Queste scoperte dimostrano l'importanza dell'adattamento delle strategie TTS alle caratteristiche specifiche di ciascun compito e modello e indicano che il TTS è un approccio promettente per potenziare le capacità di ragionamento dei LLM.