Skalierung zur Inferenzzeit für komplexe Aufgaben: Stand der Technik und zukünftige Perspektiven
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead
March 31, 2025
Autoren: Vidhisha Balachandran, Jingya Chen, Lingjiao Chen, Shivam Garg, Neel Joshi, Yash Lara, John Langford, Besmira Nushi, Vibhav Vineet, Yue Wu, Safoora Yousefi
cs.AI
Zusammenfassung
Die Skalierung zur Inferenzzeit kann die Fähigkeiten großer Sprachmodelle (LLMs) zur Lösung komplexer Probleme, die von einer schrittweisen Problemlösung profitieren, verbessern. Obwohl die Verlängerung generierter Notizen sich bei mathematischen Aufgaben als effektiv erwiesen hat, bleibt die breitere Wirkung dieses Ansatzes auf andere Aufgaben weniger klar. In dieser Arbeit untersuchen wir die Vorteile und Grenzen von Skalierungsmethoden anhand von neun modernsten Modellen und acht anspruchsvollen Aufgaben, darunter mathematisches und STEM-basiertes Denken, Kalenderplanung, NP-schwere Probleme, Navigation und räumliches Denken. Wir vergleichen konventionelle Modelle (z. B. GPT-4o) mit Modellen, die für die Skalierung zur Inferenzzeit feinabgestimmt wurden (z. B. o1), durch Evaluationsprotokolle, die wiederholte Modellaufrufe beinhalten, entweder unabhängig oder sequenziell mit Feedback. Diese Bewertungen nähern sich unteren und oberen Leistungsgrenzen sowie dem Potenzial für zukünftige Leistungsverbesserungen für jedes Modell an, sei es durch verbessertes Training oder Multi-Modell-Inferenzsysteme. Unsere umfangreiche empirische Analyse zeigt, dass die Vorteile der Skalierung zur Inferenzzeit je nach Aufgabe variieren und mit zunehmender Problemkomplexität abnehmen. Darüber hinaus führt die bloße Verwendung von mehr Tokens nicht zwangsläufig zu einer höheren Genauigkeit in diesen anspruchsvollen Bereichen. Ergebnisse aus mehreren unabhängigen Durchläufen mit konventionellen Modellen unter Verwendung perfekter Verifizierer zeigen, dass diese Modelle bei einigen Aufgaben eine Leistung erzielen können, die der durchschnittlichen Leistung der heutigen fortschrittlichsten Denkmodelle nahekommt. Bei anderen Aufgaben bleibt jedoch eine erhebliche Leistungslücke bestehen, selbst in sehr hohen Skalierungsbereichen. Ermutigenderweise zeigen alle Modelle signifikante Verbesserungen, wenn die Inferenz mit perfekten Verifizierern oder starkem Feedback weiter skaliert wird, was auf ein beträchtliches Potenzial für zukünftige Verbesserungen hindeutet.
English
Inference-time scaling can enhance the reasoning capabilities of large
language models (LLMs) on complex problems that benefit from step-by-step
problem solving. Although lengthening generated scratchpads has proven
effective for mathematical tasks, the broader impact of this approach on other
tasks remains less clear. In this work, we investigate the benefits and
limitations of scaling methods across nine state-of-the-art models and eight
challenging tasks, including math and STEM reasoning, calendar planning,
NP-hard problems, navigation, and spatial reasoning. We compare conventional
models (e.g., GPT-4o) with models fine-tuned for inference-time scaling (e.g.,
o1) through evaluation protocols that involve repeated model calls, either
independently or sequentially with feedback. These evaluations approximate
lower and upper performance bounds and potential for future performance
improvements for each model, whether through enhanced training or multi-model
inference systems. Our extensive empirical analysis reveals that the advantages
of inference-time scaling vary across tasks and diminish as problem complexity
increases. In addition, simply using more tokens does not necessarily translate
to higher accuracy in these challenging regimes. Results from multiple
independent runs with conventional models using perfect verifiers show that,
for some tasks, these models can achieve performance close to the average
performance of today's most advanced reasoning models. However, for other
tasks, a significant performance gap remains, even in very high scaling
regimes. Encouragingly, all models demonstrate significant gains when inference
is further scaled with perfect verifiers or strong feedback, suggesting ample
potential for future improvements.Summary
AI-Generated Summary