First Finish Search: Efficiënte schaling tijdens testen in grote taalmodelle

Samenvatting

Test-time scaling (TTS), waarbij dynamische toewijzing van rekenkracht tijdens inferentie plaatsvindt, biedt een veelbelovende manier om het redeneervermogen van grote taalmodellen te verbeteren. Hoewel bestaande TTS-methoden goed werken, zijn ze vaak afhankelijk van lange decodeerpaden of vereisen ze het genereren van een groot aantal samples, wat het tokengebruik en de inferentielatentie verhoogt. We observeren het verrassende feit dat voor redeneertaken kortere sporen veel waarschijnlijker correct zijn dan langere. Gemotiveerd door dit inzicht introduceren we First Finish Search (FFS), een trainingsvrije parallelle decodeerstrategie die n onafhankelijke samples start en terugkeert zodra een van deze is voltooid. We evalueren FFS naast eenvoudig decoderen, beam search, majority voting en budget forcing op vier redeneermodellen (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B en Phi-4-Reasoning-Plus) en over vier datasets (AIME24, AIME25-I, AIME25-II en GPQA Diamond). Met DeepSeek-R1 behaalt FFS een nauwkeurigheid van 82,23% op de AIME-datasets, een verbetering van 15% ten opzichte van de standalone nauwkeurigheid van DeepSeek-R1, wat bijna overeenkomt met de prestaties van OpenAI's o4-mini. Onze theoretische analyse verklaart waarom stoppen bij het kortste spoor waarschijnlijk een correct antwoord oplevert en identificeert de voorwaarden waaronder vroegtijdig stoppen suboptimaal kan zijn. De elegantie en eenvoud van FFS tonen aan dat eenvoudige TTS-strategieën opmerkelijk goed kunnen presteren, wat het onbenutte potentieel van eenvoudige benaderingen tijdens inferentie onthult.

English

Test-time scaling (TTS), which involves dynamic allocation of compute during inference, offers a promising way to improve reasoning in large language models. While existing TTS methods work well, they often rely on long decoding paths or require a large number of samples to be generated, increasing the token usage and inference latency. We observe the surprising fact that for reasoning tasks, shorter traces are much more likely to be correct than longer ones. Motivated by this, we introduce First Finish Search (FFS), a training-free parallel decoding strategy that launches n independent samples and returns as soon as any one completes. We evaluate FFS alongside simple decoding, beam search, majority voting, and budget forcing on four reasoning models (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B and Phi-4-Reasoning-Plus) and across four datasets (AIME24, AIME25-I, AIME25-II and GPQA Diamond). With DeepSeek-R1, FFS achieves 82.23% accuracy on the AIME datasets, a 15% improvement over DeepSeek-R1's standalone accuracy, nearly matching OpenAI's o4-mini performance. Our theoretical analysis explains why stopping at the shortest trace is likely to yield a correct answer and identifies the conditions under which early stopping may be suboptimal. The elegance and simplicity of FFS demonstrate that straightforward TTS strategies can perform remarkably well, revealing the untapped potential of simple approaches at inference time.

First Finish Search: Efficiënte schaling tijdens testen in grote taalmodelle

First Finish Search: Efficient Test-Time Scaling in Large Language Models

Samenvatting

Support