Première Finition de Recherche : Mise à l'échelle Efficace en Temps de Test dans les Grands Modèles de Langage
First Finish Search: Efficient Test-Time Scaling in Large Language Models
May 23, 2025
Auteurs: Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty
cs.AI
Résumé
La mise à l'échelle au moment du test (TTS), qui implique une allocation dynamique de ressources de calcul pendant l'inférence, offre une voie prometteuse pour améliorer le raisonnement dans les grands modèles de langage. Bien que les méthodes TTS existantes fonctionnent bien, elles reposent souvent sur des chemins de décodage longs ou nécessitent la génération d'un grand nombre d'échantillons, ce qui augmente l'utilisation de tokens et la latence d'inférence. Nous observons le fait surprenant que, pour les tâches de raisonnement, les traces plus courtes sont beaucoup plus susceptibles d'être correctes que les traces plus longues. Motivés par cela, nous introduisons la recherche du premier terminé (FFS), une stratégie de décodage parallèle sans apprentissage qui lance n échantillons indépendants et retourne dès que l'un d'eux se termine. Nous évaluons FFS aux côtés du décodage simple, de la recherche en faisceau, du vote majoritaire et du forçage budgétaire sur quatre modèles de raisonnement (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B et Phi-4-Reasoning-Plus) et à travers quatre ensembles de données (AIME24, AIME25-I, AIME25-II et GPQA Diamond). Avec DeepSeek-R1, FFS atteint une précision de 82,23 % sur les ensembles de données AIME, une amélioration de 15 % par rapport à la précision autonome de DeepSeek-R1, approchant presque la performance d'OpenAI o4-mini. Notre analyse théorique explique pourquoi s'arrêter à la trace la plus courte est susceptible de produire une réponse correcte et identifie les conditions sous lesquelles un arrêt précoce peut être sous-optimal. L'élégance et la simplicité de FFS démontrent que des stratégies TTS simples peuvent fonctionner remarquablement bien, révélant le potentiel inexploité des approches simples au moment de l'inférence.
English
Test-time scaling (TTS), which involves dynamic allocation of compute during
inference, offers a promising way to improve reasoning in large language
models. While existing TTS methods work well, they often rely on long decoding
paths or require a large number of samples to be generated, increasing the
token usage and inference latency. We observe the surprising fact that for
reasoning tasks, shorter traces are much more likely to be correct than longer
ones. Motivated by this, we introduce First Finish Search (FFS), a
training-free parallel decoding strategy that launches n independent samples
and returns as soon as any one completes. We evaluate FFS alongside simple
decoding, beam search, majority voting, and budget forcing on four reasoning
models (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B and Phi-4-Reasoning-Plus) and
across four datasets (AIME24, AIME25-I, AIME25-II and GPQA Diamond). With
DeepSeek-R1, FFS achieves 82.23% accuracy on the AIME datasets, a 15%
improvement over DeepSeek-R1's standalone accuracy, nearly matching OpenAI's
o4-mini performance. Our theoretical analysis explains why stopping at the
shortest trace is likely to yield a correct answer and identifies the
conditions under which early stopping may be suboptimal. The elegance and
simplicity of FFS demonstrate that straightforward TTS strategies can perform
remarkably well, revealing the untapped potential of simple approaches at
inference time.Summary
AI-Generated Summary