Kinetics: Repensando as Leis de Escalonamento em Tempo de Teste
Kinetics: Rethinking Test-Time Scaling Laws
June 5, 2025
Autores: Ranajoy Sadhukhan, Zhuoming Chen, Haizhong Zheng, Yang Zhou, Emma Strubell, Beidi Chen
cs.AI
Resumo
Repensamos as leis de escalonamento em tempo de teste a partir de uma perspectiva prática de eficiência, revelando que a eficácia de modelos menores é significativamente superestimada. Trabalhos anteriores, baseados na otimização de computação, ignoram gargalos críticos de acesso à memória introduzidos por estratégias de inferência (por exemplo, Best-of-N, CoTs longos). Nossa análise holística, abrangendo modelos de 0,6B a 32B parâmetros, revela uma nova Lei de Escalonamento Cinética que orienta melhor a alocação de recursos ao incorporar tanto os custos de computação quanto de acesso à memória. A Lei de Escalonamento Cinética sugere que a computação em tempo de teste é mais eficaz quando usada em modelos acima de um limite do que em modelos menores. Uma razão fundamental é que, no TTS, a atenção, em vez da contagem de parâmetros, surge como o fator de custo dominante. Motivados por isso, propomos um novo paradigma de escalonamento centrado na atenção esparsa, que reduz o custo por token e permite gerações mais longas e mais amostras paralelas dentro do mesmo orçamento de recursos. Empiricamente, mostramos que modelos de atenção esparsa superam consistentemente suas contrapartes densas, alcançando ganhos de mais de 60 pontos em regimes de baixo custo e mais de 5 pontos em regimes de alto custo para precisão na resolução de problemas no AIME, abrangendo avaliações em MoEs state-of-the-art. Esses resultados sugerem que a atenção esparsa é essencial para realizar todo o potencial do escalonamento em tempo de teste porque, ao contrário do treinamento, onde o escalonamento de parâmetros satura, a precisão em tempo de teste continua a melhorar com o aumento da geração. O código está disponível em https://github.com/Infini-AI-Lab/Kinetics.
English
We rethink test-time scaling laws from a practical efficiency perspective,
revealing that the effectiveness of smaller models is significantly
overestimated. Prior work, grounded in compute-optimality, overlooks critical
memory access bottlenecks introduced by inference-time strategies (e.g.,
Best-of-N, long CoTs). Our holistic analysis, spanning models from 0.6B to
32B parameters, reveals a new Kinetics Scaling Law that better guides resource
allocation by incorporating both computation and memory access costs. Kinetics
Scaling Law suggests that test-time compute is more effective when used on
models above a threshold than smaller ones. A key reason is that in TTS,
attention, rather than parameter count, emerges as the dominant cost factor.
Motivated by this, we propose a new scaling paradigm centered on sparse
attention, which lowers per-token cost and enables longer generations and more
parallel samples within the same resource budget. Empirically, we show that
sparse attention models consistently outperform dense counterparts, achieving
over 60 points gains in low-cost regimes and over 5 points gains in high-cost
regimes for problem-solving accuracy on AIME, encompassing evaluations on
state-of-the-art MoEs. These results suggest that sparse attention is essential
for realizing the full potential of test-time scaling because, unlike training,
where parameter scaling saturates, test-time accuracy continues to improve
through increased generation. The code is available at
https://github.com/Infini-AI-Lab/Kinetics.