Was, Wie, Wo und Wie Gut? Eine Untersuchung zur Testzeit-Skalierung in großen Sprachmodellen
What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models
March 31, 2025
Autoren: Qiyuan Zhang, Fuyuan Lyu, Zexu Sun, Lei Wang, Weixu Zhang, Zhihan Guo, Yufei Wang, Irwin King, Xue Liu, Chen Ma
cs.AI
Zusammenfassung
Als die Begeisterung für die Skalierung von Rechenleistung (Daten und Parameter) in der Vor-Trainings-Ära allmählich nachließ, hat sich das sogenannte „Test-Time Scaling“ (TTS), auch als „Test-Time Computing“ bezeichnet, als ein zentraler Forschungsschwerpunkt etabliert. Jüngste Studien zeigen, dass TTS die Problemlösungsfähigkeiten großer Sprachmodelle (LLMs) weiter verbessern kann, was nicht nur in spezialisierten Aufgaben wie Mathematik und Programmierung, sondern auch in allgemeinen Aufgaben wie offenen Frage-Antwort-Szenarien zu bedeutenden Durchbrüchen führt. Trotz der Vielzahl aktueller Bemühungen in diesem Bereich besteht jedoch ein dringender Bedarf an einer umfassenden Übersicht, die ein systematisches Verständnis bietet. Um diese Lücke zu schließen, schlagen wir ein einheitliches, mehrdimensionales Framework vor, das entlang vier Kernaspekte der TTS-Forschung strukturiert ist: was skaliert wird, wie skaliert wird, wo skaliert wird und wie gut skaliert wird. Aufbauend auf dieser Taxonomie führen wir eine umfangreiche Überprüfung von Methoden, Anwendungsszenarien und Bewertungsaspekten durch und präsentieren eine strukturierte Zerlegung, die die einzigartigen funktionalen Rollen einzelner Techniken im breiteren TTS-Kontext hervorhebt. Aus dieser Analyse destillieren wir die wichtigsten Entwicklungslinien von TTS bis heute und bieten praktische Leitlinien für die Implementierung. Darüber hinaus identifizieren wir mehrere offene Herausforderungen und geben Einblicke in vielversprechende Zukunftsperspektiven, darunter weitere Skalierung, Klärung der funktionalen Essenz von Techniken, Verallgemeinerung auf mehr Aufgaben und zusätzliche Attributionsmöglichkeiten.
English
As enthusiasm for scaling computation (data and parameters) in the
pretraining era gradually diminished, test-time scaling (TTS), also referred to
as ``test-time computing'' has emerged as a prominent research focus. Recent
studies demonstrate that TTS can further elicit the problem-solving
capabilities of large language models (LLMs), enabling significant
breakthroughs not only in specialized reasoning tasks, such as mathematics and
coding, but also in general tasks like open-ended Q&A. However, despite the
explosion of recent efforts in this area, there remains an urgent need for a
comprehensive survey offering a systemic understanding. To fill this gap, we
propose a unified, multidimensional framework structured along four core
dimensions of TTS research: what to scale, how to scale, where to scale, and
how well to scale. Building upon this taxonomy, we conduct an extensive review
of methods, application scenarios, and assessment aspects, and present an
organized decomposition that highlights the unique functional roles of
individual techniques within the broader TTS landscape. From this analysis, we
distill the major developmental trajectories of TTS to date and offer hands-on
guidelines for practical deployment. Furthermore, we identify several open
challenges and offer insights into promising future directions, including
further scaling, clarifying the functional essence of techniques, generalizing
to more tasks, and more attributions.Summary
AI-Generated Summary