Kinetics: Überdenken der Skalierungsgesetze zur Testzeit
Kinetics: Rethinking Test-Time Scaling Laws
June 5, 2025
Autoren: Ranajoy Sadhukhan, Zhuoming Chen, Haizhong Zheng, Yang Zhou, Emma Strubell, Beidi Chen
cs.AI
Zusammenfassung
Wir überdenken die Skalierungsgesetze zur Testzeit aus einer praktischen Effizienzperspektive und zeigen, dass die Wirksamkeit kleinerer Modelle erheblich überschätzt wird. Frühere Arbeiten, die auf Rechenoptimalität basieren, übersehen kritische Speicherzugriffsengpässe, die durch Inferenzstrategien (z. B. Best-of-N, lange CoTs) verursacht werden. Unsere ganzheitliche Analyse, die Modelle von 0,6B bis 32B Parametern umfasst, offenbart ein neues Kinetics-Skalierungsgesetz, das die Ressourcenallokation besser leitet, indem es sowohl Rechen- als auch Speicherzugriffskosten berücksichtigt. Das Kinetics-Skalierungsgesetz legt nahe, dass Rechenleistung zur Testzeit effektiver ist, wenn sie für Modelle oberhalb eines Schwellenwerts verwendet wird, als für kleinere Modelle. Ein Hauptgrund dafür ist, dass bei der Testzeitskalierung (TTS) die Aufmerksamkeit und nicht die Parameteranzahl als dominierender Kostenfaktor hervortritt. Motiviert durch diese Erkenntnis schlagen wir ein neues Skalierungsparadigma vor, das auf spärlicher Aufmerksamkeit basiert und die Kosten pro Token senkt, längere Generierungen und mehr parallele Proben innerhalb desselben Ressourcenbudgets ermöglicht. Empirisch zeigen wir, dass Modelle mit spärlicher Aufmerksamkeit durchweg ihre dichten Gegenstücke übertreffen und bei der Problemlösungsgenauigkeit auf AIME in kostengünstigen Regimen über 60 Punkte und in hochpreisigen Regimen über 5 Punkte Gewinne erzielen, einschließlich Bewertungen auf modernsten MoEs. Diese Ergebnisse deuten darauf hin, dass spärliche Aufmerksamkeit entscheidend ist, um das volle Potenzial der Testzeit-Skalierung auszuschöpfen, da im Gegensatz zum Training, bei dem die Parameterskalierung gesättigt ist, die Genauigkeit zur Testzeit durch erhöhte Generierung weiter verbessert wird. Der Code ist verfügbar unter https://github.com/Infini-AI-Lab/Kinetics.
English
We rethink test-time scaling laws from a practical efficiency perspective,
revealing that the effectiveness of smaller models is significantly
overestimated. Prior work, grounded in compute-optimality, overlooks critical
memory access bottlenecks introduced by inference-time strategies (e.g.,
Best-of-N, long CoTs). Our holistic analysis, spanning models from 0.6B to
32B parameters, reveals a new Kinetics Scaling Law that better guides resource
allocation by incorporating both computation and memory access costs. Kinetics
Scaling Law suggests that test-time compute is more effective when used on
models above a threshold than smaller ones. A key reason is that in TTS,
attention, rather than parameter count, emerges as the dominant cost factor.
Motivated by this, we propose a new scaling paradigm centered on sparse
attention, which lowers per-token cost and enables longer generations and more
parallel samples within the same resource budget. Empirically, we show that
sparse attention models consistently outperform dense counterparts, achieving
over 60 points gains in low-cost regimes and over 5 points gains in high-cost
regimes for problem-solving accuracy on AIME, encompassing evaluations on
state-of-the-art MoEs. These results suggest that sparse attention is essential
for realizing the full potential of test-time scaling because, unlike training,
where parameter scaling saturates, test-time accuracy continues to improve
through increased generation. The code is available at
https://github.com/Infini-AI-Lab/Kinetics.