Kinetics: Repensando as Leis de Escalonamento em Tempo de Teste

Resumo

Repensamos as leis de escalonamento em tempo de teste a partir de uma perspectiva prática de eficiência, revelando que a eficácia de modelos menores é significativamente superestimada. Trabalhos anteriores, baseados na otimização de computação, ignoram gargalos críticos de acesso à memória introduzidos por estratégias de inferência (por exemplo, Best-of-N, CoTs longos). Nossa análise holística, abrangendo modelos de 0,6B a 32B parâmetros, revela uma nova Lei de Escalonamento Cinética que orienta melhor a alocação de recursos ao incorporar tanto os custos de computação quanto de acesso à memória. A Lei de Escalonamento Cinética sugere que a computação em tempo de teste é mais eficaz quando usada em modelos acima de um limite do que em modelos menores. Uma razão fundamental é que, no TTS, a atenção, em vez da contagem de parâmetros, surge como o fator de custo dominante. Motivados por isso, propomos um novo paradigma de escalonamento centrado na atenção esparsa, que reduz o custo por token e permite gerações mais longas e mais amostras paralelas dentro do mesmo orçamento de recursos. Empiricamente, mostramos que modelos de atenção esparsa superam consistentemente suas contrapartes densas, alcançando ganhos de mais de 60 pontos em regimes de baixo custo e mais de 5 pontos em regimes de alto custo para precisão na resolução de problemas no AIME, abrangendo avaliações em MoEs state-of-the-art. Esses resultados sugerem que a atenção esparsa é essencial para realizar todo o potencial do escalonamento em tempo de teste porque, ao contrário do treinamento, onde o escalonamento de parâmetros satura, a precisão em tempo de teste continua a melhorar com o aumento da geração. O código está disponível em https://github.com/Infini-AI-Lab/Kinetics.

English

We rethink test-time scaling laws from a practical efficiency perspective, revealing that the effectiveness of smaller models is significantly overestimated. Prior work, grounded in compute-optimality, overlooks critical memory access bottlenecks introduced by inference-time strategies (e.g., Best-of-N, long CoTs). Our holistic analysis, spanning models from 0.6B to 32B parameters, reveals a new Kinetics Scaling Law that better guides resource allocation by incorporating both computation and memory access costs. Kinetics Scaling Law suggests that test-time compute is more effective when used on models above a threshold than smaller ones. A key reason is that in TTS, attention, rather than parameter count, emerges as the dominant cost factor. Motivated by this, we propose a new scaling paradigm centered on sparse attention, which lowers per-token cost and enables longer generations and more parallel samples within the same resource budget. Empirically, we show that sparse attention models consistently outperform dense counterparts, achieving over 60 points gains in low-cost regimes and over 5 points gains in high-cost regimes for problem-solving accuracy on AIME, encompassing evaluations on state-of-the-art MoEs. These results suggest that sparse attention is essential for realizing the full potential of test-time scaling because, unlike training, where parameter scaling saturates, test-time accuracy continues to improve through increased generation. The code is available at https://github.com/Infini-AI-Lab/Kinetics.

Kinetics: Repensando as Leis de Escalonamento em Tempo de Teste

Kinetics: Rethinking Test-Time Scaling Laws

Resumo

Support