First Finish Search: Effiziente Skalierung zur Testzeit in großen Sprachmodellen
First Finish Search: Efficient Test-Time Scaling in Large Language Models
May 23, 2025
Autoren: Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty
cs.AI
Zusammenfassung
Test-Time Scaling (TTS), das die dynamische Zuweisung von Rechenleistung während der Inferenz beinhaltet, bietet einen vielversprechenden Ansatz, um die Argumentationsfähigkeit großer Sprachmodelle zu verbessern. Obwohl bestehende TTS-Methoden gut funktionieren, verlassen sie sich oft auf lange Dekodierungspfade oder erfordern die Generierung einer großen Anzahl von Stichproben, was den Token-Verbrauch und die Inferenzlatenz erhöht. Wir beobachten die überraschende Tatsache, dass bei Argumentationsaufgaben kürzere Spuren viel wahrscheinlicher korrekt sind als längere. Motiviert durch diese Erkenntnis führen wir First Finish Search (FFS) ein, eine trainingsfreie parallele Dekodierungsstrategie, die n unabhängige Stichproben startet und zurückgibt, sobald eine davon abgeschlossen ist. Wir evaluieren FFS neben einfacher Dekodierung, Beam Search, Mehrheitsabstimmung und Budget Forcing an vier Argumentationsmodellen (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B und Phi-4-Reasoning-Plus) und über vier Datensätze hinweg (AIME24, AIME25-I, AIME25-II und GPQA Diamond). Mit DeepSeek-R1 erreicht FFS eine Genauigkeit von 82,23 % auf den AIME-Datensätzen, eine Verbesserung von 15 % gegenüber der eigenständigen Genauigkeit von DeepSeek-R1, was nahezu der Leistung von OpenAI's o4-mini entspricht. Unsere theoretische Analyse erklärt, warum das Anhalten bei der kürzesten Spur wahrscheinlich eine korrekte Antwort liefert und identifiziert die Bedingungen, unter denen ein vorzeitiges Anhalten suboptimal sein kann. Die Eleganz und Einfachheit von FFS demonstrieren, dass unkomplizierte TTS-Strategien bemerkenswert gut abschneiden können und das ungenutzte Potenzial einfacher Ansätze zur Inferenzzeit aufzeigen.
English
Test-time scaling (TTS), which involves dynamic allocation of compute during
inference, offers a promising way to improve reasoning in large language
models. While existing TTS methods work well, they often rely on long decoding
paths or require a large number of samples to be generated, increasing the
token usage and inference latency. We observe the surprising fact that for
reasoning tasks, shorter traces are much more likely to be correct than longer
ones. Motivated by this, we introduce First Finish Search (FFS), a
training-free parallel decoding strategy that launches n independent samples
and returns as soon as any one completes. We evaluate FFS alongside simple
decoding, beam search, majority voting, and budget forcing on four reasoning
models (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B and Phi-4-Reasoning-Plus) and
across four datasets (AIME24, AIME25-I, AIME25-II and GPQA Diamond). With
DeepSeek-R1, FFS achieves 82.23% accuracy on the AIME datasets, a 15%
improvement over DeepSeek-R1's standalone accuracy, nearly matching OpenAI's
o4-mini performance. Our theoretical analysis explains why stopping at the
shortest trace is likely to yield a correct answer and identifies the
conditions under which early stopping may be suboptimal. The elegance and
simplicity of FFS demonstrate that straightforward TTS strategies can perform
remarkably well, revealing the untapped potential of simple approaches at
inference time.Summary
AI-Generated Summary