First Finish Search: Effiziente Skalierung zur Testzeit in großen Sprachmodellen

papers.abstract

Test-Time Scaling (TTS), das die dynamische Zuweisung von Rechenleistung während der Inferenz beinhaltet, bietet einen vielversprechenden Ansatz, um die Argumentationsfähigkeit großer Sprachmodelle zu verbessern. Obwohl bestehende TTS-Methoden gut funktionieren, verlassen sie sich oft auf lange Dekodierungspfade oder erfordern die Generierung einer großen Anzahl von Stichproben, was den Token-Verbrauch und die Inferenzlatenz erhöht. Wir beobachten die überraschende Tatsache, dass bei Argumentationsaufgaben kürzere Spuren viel wahrscheinlicher korrekt sind als längere. Motiviert durch diese Erkenntnis führen wir First Finish Search (FFS) ein, eine trainingsfreie parallele Dekodierungsstrategie, die n unabhängige Stichproben startet und zurückgibt, sobald eine davon abgeschlossen ist. Wir evaluieren FFS neben einfacher Dekodierung, Beam Search, Mehrheitsabstimmung und Budget Forcing an vier Argumentationsmodellen (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B und Phi-4-Reasoning-Plus) und über vier Datensätze hinweg (AIME24, AIME25-I, AIME25-II und GPQA Diamond). Mit DeepSeek-R1 erreicht FFS eine Genauigkeit von 82,23 % auf den AIME-Datensätzen, eine Verbesserung von 15 % gegenüber der eigenständigen Genauigkeit von DeepSeek-R1, was nahezu der Leistung von OpenAI's o4-mini entspricht. Unsere theoretische Analyse erklärt, warum das Anhalten bei der kürzesten Spur wahrscheinlich eine korrekte Antwort liefert und identifiziert die Bedingungen, unter denen ein vorzeitiges Anhalten suboptimal sein kann. Die Eleganz und Einfachheit von FFS demonstrieren, dass unkomplizierte TTS-Strategien bemerkenswert gut abschneiden können und das ungenutzte Potenzial einfacher Ansätze zur Inferenzzeit aufzeigen.

English

Test-time scaling (TTS), which involves dynamic allocation of compute during inference, offers a promising way to improve reasoning in large language models. While existing TTS methods work well, they often rely on long decoding paths or require a large number of samples to be generated, increasing the token usage and inference latency. We observe the surprising fact that for reasoning tasks, shorter traces are much more likely to be correct than longer ones. Motivated by this, we introduce First Finish Search (FFS), a training-free parallel decoding strategy that launches n independent samples and returns as soon as any one completes. We evaluate FFS alongside simple decoding, beam search, majority voting, and budget forcing on four reasoning models (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B and Phi-4-Reasoning-Plus) and across four datasets (AIME24, AIME25-I, AIME25-II and GPQA Diamond). With DeepSeek-R1, FFS achieves 82.23% accuracy on the AIME datasets, a 15% improvement over DeepSeek-R1's standalone accuracy, nearly matching OpenAI's o4-mini performance. Our theoretical analysis explains why stopping at the shortest trace is likely to yield a correct answer and identifies the conditions under which early stopping may be suboptimal. The elegance and simplicity of FFS demonstrate that straightforward TTS strategies can perform remarkably well, revealing the untapped potential of simple approaches at inference time.

First Finish Search: Effiziente Skalierung zur Testzeit in großen Sprachmodellen

First Finish Search: Efficient Test-Time Scaling in Large Language Models

papers.abstract

Support