First Finish Search: Scalabilità Efficiente durante il Test nei Modelli Linguistici di Grandi Dimensioni
First Finish Search: Efficient Test-Time Scaling in Large Language Models
May 23, 2025
Autori: Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty
cs.AI
Abstract
Il ridimensionamento al momento del test (Test-Time Scaling, TTS), che prevede l'allocazione dinamica delle risorse di calcolo durante l'inferenza, offre un approccio promettente per migliorare il ragionamento nei grandi modelli linguistici. Sebbene i metodi TTS esistenti funzionino bene, spesso si basano su percorsi di decodifica lunghi o richiedono la generazione di un gran numero di campioni, aumentando l'uso di token e la latenza dell'inferenza. Osserviamo il fatto sorprendente che, per i compiti di ragionamento, le tracce più brevi hanno una probabilità molto maggiore di essere corrette rispetto a quelle più lunghe. Motivati da ciò, introduciamo il First Finish Search (FFS), una strategia di decodifica parallela senza addestramento che lancia n campioni indipendenti e restituisce il risultato non appena uno di essi viene completato. Valutiamo FFS insieme a decodifica semplice, beam search, voto a maggioranza e budget forcing su quattro modelli di ragionamento (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B e Phi-4-Reasoning-Plus) e su quattro dataset (AIME24, AIME25-I, AIME25-II e GPQA Diamond). Con DeepSeek-R1, FFS raggiunge un'accuratezza dell'82,23% sui dataset AIME, un miglioramento del 15% rispetto all'accuratezza autonoma di DeepSeek-R1, avvicinandosi quasi alle prestazioni di OpenAI o4-mini. La nostra analisi teorica spiega perché fermarsi alla traccia più breve è probabile che produca una risposta corretta e identifica le condizioni in cui l'arresto anticipato potrebbe essere subottimale. L'eleganza e la semplicità di FFS dimostrano che strategie TTS dirette possono funzionare in modo eccezionale, rivelando il potenziale inesplorato degli approcci semplici al momento dell'inferenza.
English
Test-time scaling (TTS), which involves dynamic allocation of compute during
inference, offers a promising way to improve reasoning in large language
models. While existing TTS methods work well, they often rely on long decoding
paths or require a large number of samples to be generated, increasing the
token usage and inference latency. We observe the surprising fact that for
reasoning tasks, shorter traces are much more likely to be correct than longer
ones. Motivated by this, we introduce First Finish Search (FFS), a
training-free parallel decoding strategy that launches n independent samples
and returns as soon as any one completes. We evaluate FFS alongside simple
decoding, beam search, majority voting, and budget forcing on four reasoning
models (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B and Phi-4-Reasoning-Plus) and
across four datasets (AIME24, AIME25-I, AIME25-II and GPQA Diamond). With
DeepSeek-R1, FFS achieves 82.23% accuracy on the AIME datasets, a 15%
improvement over DeepSeek-R1's standalone accuracy, nearly matching OpenAI's
o4-mini performance. Our theoretical analysis explains why stopping at the
shortest trace is likely to yield a correct answer and identifies the
conditions under which early stopping may be suboptimal. The elegance and
simplicity of FFS demonstrate that straightforward TTS strategies can perform
remarkably well, revealing the untapped potential of simple approaches at
inference time.