Die Kunst der Skalierung von Testzeit-Berechnungsressourcen für große Sprachmodelle
The Art of Scaling Test-Time Compute for Large Language Models
December 1, 2025
papers.authors: Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty
cs.AI
papers.abstract
Test-Time Scaling (TTS) – die dynamische Zuweisung von Rechenleistung während des Inferenzvorgangs – ist ein vielversprechender Ansatz zur Verbesserung der Denkfähigkeiten großer Sprachmodelle (LLMs). Allerdings fehlt ein systematischer Vergleich bekannter TTS-Strategien unter identischen Bedingungen, und der Einfluss des Modelltyps und der Problemkomplexität auf die Leistung bleibt unklar. Um diese Lücken zu schließen, führen wir die erste groß angelegte Studie zu TTS durch, die über dreißig Milliarden Tokens umfasst, die mit acht Open-Source-LLMs (7B bis 235B Parameter) über vier Reasoning-Datensätze generiert wurden. Wir beobachten drei konsistente Trends: (1) Keine einzelne TTS-Strategie ist universell überlegen; (2) Reasoning-Modelle zeigen unterschiedliche Trace-Qualitätsmuster in Abhängigkeit von Problemkomplexität und Trace-Länge, die sich in kurz- und langfristige Kategorien einteilen lassen; und (3) für einen gegebenen Modelltyp skaliert die optimale TTS-Leistung monoton mit dem Rechenbudget. Auf Basis dieser Erkenntnisse liefern wir eine praktische Anleitung zur Auswahl der besten TTS-Strategie unter Berücksichtigung von Problemkomplexität, Modelltyp und Rechenbudget, die einen praktischen Leitfaden für effektives Skalieren zur Inferenzzeit darstellt.
English
Test-time scaling (TTS) -- the dynamic allocation of compute during inference -- is a promising direction for improving reasoning in large language models (LLMs). However, a systematic comparison of well-known TTS strategies under identical conditions is missing, and the influence of model type and problem difficulty on performance remains unclear. To address these gaps, we conduct the first large-scale study of TTS, spanning over thirty billion tokens generated using eight open-source LLMs (7B to 235B parameters), across four reasoning datasets. We observe three consistent trends: (1) no single TTS strategy universally dominates; (2) reasoning models exhibit distinct trace-quality patterns across problem difficulty and trace length, forming short-horizon and long-horizon categories; and (3) for a given model type, the optimal TTS performance scales monotonically with compute budget. Based on these insights, we provide a practical recipe for selecting the best TTS strategy, considering problem difficulty, model type, and compute budget, providing a practical guide to effective inference-time scaling.