扩大大型语言模型测试时计算规模的艺术

Abstract

Il test-time scaling (TTS) – l'allocazione dinamica della potenza di calcolo durante l'inferenza – rappresenta una direzione promettente per migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, manca un confronto sistematico delle strategie TTS più note in condizioni identiche, e l'influenza del tipo di modello e della difficoltà del problema sulle prestazioni rimane poco chiara. Per colmare queste lacune, conduciamo il primo studio su larga scala sul TTS, analizzando oltre trenta miliardi di token generati da otto LLM open-source (da 7 a 235 miliardi di parametri) attraverso quattro dataset di ragionamento. Osserviamo tre trend consistenti: (1) nessuna singola strategia TTS domina universalmente; (2) i modelli di ragionamento mostrano pattern distinti di qualità della traccia in base alla difficoltà del problema e alla lunghezza della traccia, formando categorie di orizzonte breve e lungo; e (3) per un dato tipo di modello, le prestazioni TTS ottimali scalano monotonicamente con il budget computazionale. Sulla base di queste intuizioni, forniamo una ricetta pratica per selezionare la migliore strategia TTS, tenendo conto della difficoltà del problema, del tipo di modello e del budget computazionale, offrendo una guida pratica per uno scaling efficace al momento dell'inferenza.

English

Test-time scaling (TTS) -- the dynamic allocation of compute during inference -- is a promising direction for improving reasoning in large language models (LLMs). However, a systematic comparison of well-known TTS strategies under identical conditions is missing, and the influence of model type and problem difficulty on performance remains unclear. To address these gaps, we conduct the first large-scale study of TTS, spanning over thirty billion tokens generated using eight open-source LLMs (7B to 235B parameters), across four reasoning datasets. We observe three consistent trends: (1) no single TTS strategy universally dominates; (2) reasoning models exhibit distinct trace-quality patterns across problem difficulty and trace length, forming short-horizon and long-horizon categories; and (3) for a given model type, the optimal TTS performance scales monotonically with compute budget. Based on these insights, we provide a practical recipe for selecting the best TTS strategy, considering problem difficulty, model type, and compute budget, providing a practical guide to effective inference-time scaling.

扩大大型语言模型测试时计算规模的艺术

The Art of Scaling Test-Time Compute for Large Language Models

Abstract

Support