ChatPaper.aiChatPaper

Kinetics: Heroverdenken van schaalwetten tijdens testtijd

Kinetics: Rethinking Test-Time Scaling Laws

June 5, 2025
Auteurs: Ranajoy Sadhukhan, Zhuoming Chen, Haizhong Zheng, Yang Zhou, Emma Strubell, Beidi Chen
cs.AI

Samenvatting

We heroverwegen de schaalwetten voor testtijd vanuit een praktisch efficiëntieperspectief, waarbij we aantonen dat de effectiviteit van kleinere modellen aanzienlijk wordt overschat. Eerdere onderzoeken, gebaseerd op compute-optimaliteit, negeren kritieke geheugentoegangsproblemen die worden geïntroduceerd door inferentie-strategieën (bijv., Best-of-N, lange CoTs). Onze holistische analyse, die modellen van 0,6B tot 32B parameters omvat, onthult een nieuwe Kinetics Schaalwet die de toewijzing van middelen beter begeleidt door zowel rekening te houden met rekenkosten als geheugentoegangskosten. De Kinetics Schaalwet suggereert dat compute tijdens testtijd effectiever is wanneer het wordt gebruikt op modellen boven een bepaalde drempel dan op kleinere modellen. Een belangrijke reden hiervoor is dat bij TTS aandacht, in plaats van het aantal parameters, de dominante kostenfactor wordt. Gemotiveerd door dit inzicht, stellen we een nieuw schaalparadigma voor dat gericht is op sparse aandacht, wat de kosten per token verlaagt en langere generaties en meer parallelle samples mogelijk maakt binnen hetzelfde resourcebudget. Empirisch tonen we aan dat modellen met sparse aandacht consistent beter presteren dan hun dichte tegenhangers, met winsten van meer dan 60 punten in low-cost regimes en meer dan 5 punten in high-cost regimes voor probleemoplossende nauwkeurigheid op AIME, inclusief evaluaties op state-of-the-art MoEs. Deze resultaten suggereren dat sparse aandacht essentieel is om het volledige potentieel van testtijd-schaling te realiseren, omdat, in tegenstelling tot training, waar parameterschaling verzadigt, de nauwkeurigheid tijdens testtijd blijft verbeteren door middel van verhoogde generatie. De code is beschikbaar op https://github.com/Infini-AI-Lab/Kinetics.
English
We rethink test-time scaling laws from a practical efficiency perspective, revealing that the effectiveness of smaller models is significantly overestimated. Prior work, grounded in compute-optimality, overlooks critical memory access bottlenecks introduced by inference-time strategies (e.g., Best-of-N, long CoTs). Our holistic analysis, spanning models from 0.6B to 32B parameters, reveals a new Kinetics Scaling Law that better guides resource allocation by incorporating both computation and memory access costs. Kinetics Scaling Law suggests that test-time compute is more effective when used on models above a threshold than smaller ones. A key reason is that in TTS, attention, rather than parameter count, emerges as the dominant cost factor. Motivated by this, we propose a new scaling paradigm centered on sparse attention, which lowers per-token cost and enables longer generations and more parallel samples within the same resource budget. Empirically, we show that sparse attention models consistently outperform dense counterparts, achieving over 60 points gains in low-cost regimes and over 5 points gains in high-cost regimes for problem-solving accuracy on AIME, encompassing evaluations on state-of-the-art MoEs. These results suggest that sparse attention is essential for realizing the full potential of test-time scaling because, unlike training, where parameter scaling saturates, test-time accuracy continues to improve through increased generation. The code is available at https://github.com/Infini-AI-Lab/Kinetics.
PDF61June 6, 2025