Première Finition de Recherche : Mise à l'échelle Efficace en Temps de Test dans les Grands Modèles de Langage

papers.abstract

La mise à l'échelle au moment du test (TTS), qui implique une allocation dynamique de ressources de calcul pendant l'inférence, offre une voie prometteuse pour améliorer le raisonnement dans les grands modèles de langage. Bien que les méthodes TTS existantes fonctionnent bien, elles reposent souvent sur des chemins de décodage longs ou nécessitent la génération d'un grand nombre d'échantillons, ce qui augmente l'utilisation de tokens et la latence d'inférence. Nous observons le fait surprenant que, pour les tâches de raisonnement, les traces plus courtes sont beaucoup plus susceptibles d'être correctes que les traces plus longues. Motivés par cela, nous introduisons la recherche du premier terminé (FFS), une stratégie de décodage parallèle sans apprentissage qui lance n échantillons indépendants et retourne dès que l'un d'eux se termine. Nous évaluons FFS aux côtés du décodage simple, de la recherche en faisceau, du vote majoritaire et du forçage budgétaire sur quatre modèles de raisonnement (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B et Phi-4-Reasoning-Plus) et à travers quatre ensembles de données (AIME24, AIME25-I, AIME25-II et GPQA Diamond). Avec DeepSeek-R1, FFS atteint une précision de 82,23 % sur les ensembles de données AIME, une amélioration de 15 % par rapport à la précision autonome de DeepSeek-R1, approchant presque la performance d'OpenAI o4-mini. Notre analyse théorique explique pourquoi s'arrêter à la trace la plus courte est susceptible de produire une réponse correcte et identifie les conditions sous lesquelles un arrêt précoce peut être sous-optimal. L'élégance et la simplicité de FFS démontrent que des stratégies TTS simples peuvent fonctionner remarquablement bien, révélant le potentiel inexploité des approches simples au moment de l'inférence.

English

Test-time scaling (TTS), which involves dynamic allocation of compute during inference, offers a promising way to improve reasoning in large language models. While existing TTS methods work well, they often rely on long decoding paths or require a large number of samples to be generated, increasing the token usage and inference latency. We observe the surprising fact that for reasoning tasks, shorter traces are much more likely to be correct than longer ones. Motivated by this, we introduce First Finish Search (FFS), a training-free parallel decoding strategy that launches n independent samples and returns as soon as any one completes. We evaluate FFS alongside simple decoding, beam search, majority voting, and budget forcing on four reasoning models (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B and Phi-4-Reasoning-Plus) and across four datasets (AIME24, AIME25-I, AIME25-II and GPQA Diamond). With DeepSeek-R1, FFS achieves 82.23% accuracy on the AIME datasets, a 15% improvement over DeepSeek-R1's standalone accuracy, nearly matching OpenAI's o4-mini performance. Our theoretical analysis explains why stopping at the shortest trace is likely to yield a correct answer and identifies the conditions under which early stopping may be suboptimal. The elegance and simplicity of FFS demonstrate that straightforward TTS strategies can perform remarkably well, revealing the untapped potential of simple approaches at inference time.

Première Finition de Recherche : Mise à l'échelle Efficace en Temps de Test dans les Grands Modèles de Langage

First Finish Search: Efficient Test-Time Scaling in Large Language Models

papers.abstract

Support