Busca de Primeiro Término: Escalonamento Eficiente em Tempo de Teste em Modelos de Linguagem de Grande Escala
First Finish Search: Efficient Test-Time Scaling in Large Language Models
May 23, 2025
Autores: Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty
cs.AI
Resumo
A escala em tempo de teste (TTS), que envolve a alocação dinâmica de computação durante a inferência, oferece uma maneira promissora de melhorar o raciocínio em grandes modelos de linguagem. Embora os métodos existentes de TTS funcionem bem, eles frequentemente dependem de longos caminhos de decodificação ou exigem a geração de um grande número de amostras, aumentando o uso de tokens e a latência de inferência. Observamos o fato surpreendente de que, para tarefas de raciocínio, traços mais curtos têm uma probabilidade muito maior de estarem corretos do que os mais longos. Motivados por isso, introduzimos a Busca do Primeiro a Terminar (FFS), uma estratégia de decodificação paralela sem treinamento que lança n amostras independentes e retorna assim que qualquer uma delas é concluída. Avaliamos a FFS juntamente com a decodificação simples, a busca em feixe, a votação majoritária e a forçagem de orçamento em quatro modelos de raciocínio (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B e Phi-4-Reasoning-Plus) e em quatro conjuntos de dados (AIME24, AIME25-I, AIME25-II e GPQA Diamond). Com o DeepSeek-R1, a FFS alcança 82,23% de precisão nos conjuntos de dados AIME, uma melhoria de 15% em relação à precisão independente do DeepSeek-R1, quase igualando o desempenho do o4-mini da OpenAI. Nossa análise teórica explica por que parar no traço mais curto provavelmente resulta em uma resposta correta e identifica as condições sob as quais a parada antecipada pode ser subótima. A elegância e simplicidade da FFS demonstram que estratégias simples de TTS podem ter um desempenho notavelmente bom, revelando o potencial não explorado de abordagens simples no momento da inferência.
English
Test-time scaling (TTS), which involves dynamic allocation of compute during
inference, offers a promising way to improve reasoning in large language
models. While existing TTS methods work well, they often rely on long decoding
paths or require a large number of samples to be generated, increasing the
token usage and inference latency. We observe the surprising fact that for
reasoning tasks, shorter traces are much more likely to be correct than longer
ones. Motivated by this, we introduce First Finish Search (FFS), a
training-free parallel decoding strategy that launches n independent samples
and returns as soon as any one completes. We evaluate FFS alongside simple
decoding, beam search, majority voting, and budget forcing on four reasoning
models (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B and Phi-4-Reasoning-Plus) and
across four datasets (AIME24, AIME25-I, AIME25-II and GPQA Diamond). With
DeepSeek-R1, FFS achieves 82.23% accuracy on the AIME datasets, a 15%
improvement over DeepSeek-R1's standalone accuracy, nearly matching OpenAI's
o4-mini performance. Our theoretical analysis explains why stopping at the
shortest trace is likely to yield a correct answer and identifies the
conditions under which early stopping may be suboptimal. The elegance and
simplicity of FFS demonstrate that straightforward TTS strategies can perform
remarkably well, revealing the untapped potential of simple approaches at
inference time.