First Finish Search: Scalabilità Efficiente durante il Test nei Modelli Linguistici di Grandi Dimensioni

Abstract

Il ridimensionamento al momento del test (Test-Time Scaling, TTS), che prevede l'allocazione dinamica delle risorse di calcolo durante l'inferenza, offre un approccio promettente per migliorare il ragionamento nei grandi modelli linguistici. Sebbene i metodi TTS esistenti funzionino bene, spesso si basano su percorsi di decodifica lunghi o richiedono la generazione di un gran numero di campioni, aumentando l'uso di token e la latenza dell'inferenza. Osserviamo il fatto sorprendente che, per i compiti di ragionamento, le tracce più brevi hanno una probabilità molto maggiore di essere corrette rispetto a quelle più lunghe. Motivati da ciò, introduciamo il First Finish Search (FFS), una strategia di decodifica parallela senza addestramento che lancia n campioni indipendenti e restituisce il risultato non appena uno di essi viene completato. Valutiamo FFS insieme a decodifica semplice, beam search, voto a maggioranza e budget forcing su quattro modelli di ragionamento (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B e Phi-4-Reasoning-Plus) e su quattro dataset (AIME24, AIME25-I, AIME25-II e GPQA Diamond). Con DeepSeek-R1, FFS raggiunge un'accuratezza dell'82,23% sui dataset AIME, un miglioramento del 15% rispetto all'accuratezza autonoma di DeepSeek-R1, avvicinandosi quasi alle prestazioni di OpenAI o4-mini. La nostra analisi teorica spiega perché fermarsi alla traccia più breve è probabile che produca una risposta corretta e identifica le condizioni in cui l'arresto anticipato potrebbe essere subottimale. L'eleganza e la semplicità di FFS dimostrano che strategie TTS dirette possono funzionare in modo eccezionale, rivelando il potenziale inesplorato degli approcci semplici al momento dell'inferenza.

English

Test-time scaling (TTS), which involves dynamic allocation of compute during inference, offers a promising way to improve reasoning in large language models. While existing TTS methods work well, they often rely on long decoding paths or require a large number of samples to be generated, increasing the token usage and inference latency. We observe the surprising fact that for reasoning tasks, shorter traces are much more likely to be correct than longer ones. Motivated by this, we introduce First Finish Search (FFS), a training-free parallel decoding strategy that launches n independent samples and returns as soon as any one completes. We evaluate FFS alongside simple decoding, beam search, majority voting, and budget forcing on four reasoning models (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B and Phi-4-Reasoning-Plus) and across four datasets (AIME24, AIME25-I, AIME25-II and GPQA Diamond). With DeepSeek-R1, FFS achieves 82.23% accuracy on the AIME datasets, a 15% improvement over DeepSeek-R1's standalone accuracy, nearly matching OpenAI's o4-mini performance. Our theoretical analysis explains why stopping at the shortest trace is likely to yield a correct answer and identifies the conditions under which early stopping may be suboptimal. The elegance and simplicity of FFS demonstrate that straightforward TTS strategies can perform remarkably well, revealing the untapped potential of simple approaches at inference time.

First Finish Search: Scalabilità Efficiente durante il Test nei Modelli Linguistici di Grandi Dimensioni

First Finish Search: Efficient Test-Time Scaling in Large Language Models

Abstract

Support