Busca de Primeiro Término: Escalonamento Eficiente em Tempo de Teste em Modelos de Linguagem de Grande Escala

Resumo

A escala em tempo de teste (TTS), que envolve a alocação dinâmica de computação durante a inferência, oferece uma maneira promissora de melhorar o raciocínio em grandes modelos de linguagem. Embora os métodos existentes de TTS funcionem bem, eles frequentemente dependem de longos caminhos de decodificação ou exigem a geração de um grande número de amostras, aumentando o uso de tokens e a latência de inferência. Observamos o fato surpreendente de que, para tarefas de raciocínio, traços mais curtos têm uma probabilidade muito maior de estarem corretos do que os mais longos. Motivados por isso, introduzimos a Busca do Primeiro a Terminar (FFS), uma estratégia de decodificação paralela sem treinamento que lança n amostras independentes e retorna assim que qualquer uma delas é concluída. Avaliamos a FFS juntamente com a decodificação simples, a busca em feixe, a votação majoritária e a forçagem de orçamento em quatro modelos de raciocínio (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B e Phi-4-Reasoning-Plus) e em quatro conjuntos de dados (AIME24, AIME25-I, AIME25-II e GPQA Diamond). Com o DeepSeek-R1, a FFS alcança 82,23% de precisão nos conjuntos de dados AIME, uma melhoria de 15% em relação à precisão independente do DeepSeek-R1, quase igualando o desempenho do o4-mini da OpenAI. Nossa análise teórica explica por que parar no traço mais curto provavelmente resulta em uma resposta correta e identifica as condições sob as quais a parada antecipada pode ser subótima. A elegância e simplicidade da FFS demonstram que estratégias simples de TTS podem ter um desempenho notavelmente bom, revelando o potencial não explorado de abordagens simples no momento da inferência.

English

Test-time scaling (TTS), which involves dynamic allocation of compute during inference, offers a promising way to improve reasoning in large language models. While existing TTS methods work well, they often rely on long decoding paths or require a large number of samples to be generated, increasing the token usage and inference latency. We observe the surprising fact that for reasoning tasks, shorter traces are much more likely to be correct than longer ones. Motivated by this, we introduce First Finish Search (FFS), a training-free parallel decoding strategy that launches n independent samples and returns as soon as any one completes. We evaluate FFS alongside simple decoding, beam search, majority voting, and budget forcing on four reasoning models (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B and Phi-4-Reasoning-Plus) and across four datasets (AIME24, AIME25-I, AIME25-II and GPQA Diamond). With DeepSeek-R1, FFS achieves 82.23% accuracy on the AIME datasets, a 15% improvement over DeepSeek-R1's standalone accuracy, nearly matching OpenAI's o4-mini performance. Our theoretical analysis explains why stopping at the shortest trace is likely to yield a correct answer and identifies the conditions under which early stopping may be suboptimal. The elegance and simplicity of FFS demonstrate that straightforward TTS strategies can perform remarkably well, revealing the untapped potential of simple approaches at inference time.

Busca de Primeiro Término: Escalonamento Eficiente em Tempo de Teste em Modelos de Linguagem de Grande Escala

First Finish Search: Efficient Test-Time Scaling in Large Language Models

Resumo

Support