Kinetics: Überdenken der Skalierungsgesetze zur Testzeit

papers.abstract

Wir überdenken die Skalierungsgesetze zur Testzeit aus einer praktischen Effizienzperspektive und zeigen, dass die Wirksamkeit kleinerer Modelle erheblich überschätzt wird. Frühere Arbeiten, die auf Rechenoptimalität basieren, übersehen kritische Speicherzugriffsengpässe, die durch Inferenzstrategien (z. B. Best-of-N, lange CoTs) verursacht werden. Unsere ganzheitliche Analyse, die Modelle von 0,6B bis 32B Parametern umfasst, offenbart ein neues Kinetics-Skalierungsgesetz, das die Ressourcenallokation besser leitet, indem es sowohl Rechen- als auch Speicherzugriffskosten berücksichtigt. Das Kinetics-Skalierungsgesetz legt nahe, dass Rechenleistung zur Testzeit effektiver ist, wenn sie für Modelle oberhalb eines Schwellenwerts verwendet wird, als für kleinere Modelle. Ein Hauptgrund dafür ist, dass bei der Testzeitskalierung (TTS) die Aufmerksamkeit und nicht die Parameteranzahl als dominierender Kostenfaktor hervortritt. Motiviert durch diese Erkenntnis schlagen wir ein neues Skalierungsparadigma vor, das auf spärlicher Aufmerksamkeit basiert und die Kosten pro Token senkt, längere Generierungen und mehr parallele Proben innerhalb desselben Ressourcenbudgets ermöglicht. Empirisch zeigen wir, dass Modelle mit spärlicher Aufmerksamkeit durchweg ihre dichten Gegenstücke übertreffen und bei der Problemlösungsgenauigkeit auf AIME in kostengünstigen Regimen über 60 Punkte und in hochpreisigen Regimen über 5 Punkte Gewinne erzielen, einschließlich Bewertungen auf modernsten MoEs. Diese Ergebnisse deuten darauf hin, dass spärliche Aufmerksamkeit entscheidend ist, um das volle Potenzial der Testzeit-Skalierung auszuschöpfen, da im Gegensatz zum Training, bei dem die Parameterskalierung gesättigt ist, die Genauigkeit zur Testzeit durch erhöhte Generierung weiter verbessert wird. Der Code ist verfügbar unter https://github.com/Infini-AI-Lab/Kinetics.

English

We rethink test-time scaling laws from a practical efficiency perspective, revealing that the effectiveness of smaller models is significantly overestimated. Prior work, grounded in compute-optimality, overlooks critical memory access bottlenecks introduced by inference-time strategies (e.g., Best-of-N, long CoTs). Our holistic analysis, spanning models from 0.6B to 32B parameters, reveals a new Kinetics Scaling Law that better guides resource allocation by incorporating both computation and memory access costs. Kinetics Scaling Law suggests that test-time compute is more effective when used on models above a threshold than smaller ones. A key reason is that in TTS, attention, rather than parameter count, emerges as the dominant cost factor. Motivated by this, we propose a new scaling paradigm centered on sparse attention, which lowers per-token cost and enables longer generations and more parallel samples within the same resource budget. Empirically, we show that sparse attention models consistently outperform dense counterparts, achieving over 60 points gains in low-cost regimes and over 5 points gains in high-cost regimes for problem-solving accuracy on AIME, encompassing evaluations on state-of-the-art MoEs. These results suggest that sparse attention is essential for realizing the full potential of test-time scaling because, unlike training, where parameter scaling saturates, test-time accuracy continues to improve through increased generation. The code is available at https://github.com/Infini-AI-Lab/Kinetics.

Kinetics: Überdenken der Skalierungsgesetze zur Testzeit

Kinetics: Rethinking Test-Time Scaling Laws

papers.abstract

Support