Cinética: Replanteando las leyes de escalamiento en tiempo de prueba
Kinetics: Rethinking Test-Time Scaling Laws
June 5, 2025
Autores: Ranajoy Sadhukhan, Zhuoming Chen, Haizhong Zheng, Yang Zhou, Emma Strubell, Beidi Chen
cs.AI
Resumen
Replanteamos las leyes de escalamiento en tiempo de prueba desde una perspectiva de eficiencia práctica, revelando que la efectividad de los modelos más pequeños está significativamente sobreestimada. Trabajos previos, basados en la optimalidad de cómputo, pasan por alto cuellos de botella críticos en el acceso a la memoria introducidos por estrategias en tiempo de inferencia (por ejemplo, Best-of-N, CoTs largos). Nuestro análisis holístico, que abarca modelos desde 0.6B hasta 32B parámetros, revela una nueva Ley de Escalamiento Cinético que guía mejor la asignación de recursos al incorporar tanto los costos de cómputo como los de acceso a la memoria. La Ley de Escalamiento Cinético sugiere que el cómputo en tiempo de prueba es más efectivo cuando se utiliza en modelos por encima de un umbral que en los más pequeños. Una razón clave es que, en TTS, la atención, en lugar del número de parámetros, surge como el factor de costo dominante. Motivados por esto, proponemos un nuevo paradigma de escalamiento centrado en la atención dispersa, que reduce el costo por token y permite generaciones más largas y más muestras paralelas dentro del mismo presupuesto de recursos. Empíricamente, demostramos que los modelos de atención dispersa superan consistentemente a sus contrapartes densas, logrando ganancias de más de 60 puntos en regímenes de bajo costo y más de 5 puntos en regímenes de alto costo para la precisión en la resolución de problemas en AIME, incluyendo evaluaciones en MoEs de última generación. Estos resultados sugieren que la atención dispersa es esencial para alcanzar el potencial completo del escalamiento en tiempo de prueba porque, a diferencia del entrenamiento, donde el escalamiento de parámetros se satura, la precisión en tiempo de prueba continúa mejorando a través de una mayor generación. El código está disponible en https://github.com/Infini-AI-Lab/Kinetics.
English
We rethink test-time scaling laws from a practical efficiency perspective,
revealing that the effectiveness of smaller models is significantly
overestimated. Prior work, grounded in compute-optimality, overlooks critical
memory access bottlenecks introduced by inference-time strategies (e.g.,
Best-of-N, long CoTs). Our holistic analysis, spanning models from 0.6B to
32B parameters, reveals a new Kinetics Scaling Law that better guides resource
allocation by incorporating both computation and memory access costs. Kinetics
Scaling Law suggests that test-time compute is more effective when used on
models above a threshold than smaller ones. A key reason is that in TTS,
attention, rather than parameter count, emerges as the dominant cost factor.
Motivated by this, we propose a new scaling paradigm centered on sparse
attention, which lowers per-token cost and enables longer generations and more
parallel samples within the same resource budget. Empirically, we show that
sparse attention models consistently outperform dense counterparts, achieving
over 60 points gains in low-cost regimes and over 5 points gains in high-cost
regimes for problem-solving accuracy on AIME, encompassing evaluations on
state-of-the-art MoEs. These results suggest that sparse attention is essential
for realizing the full potential of test-time scaling because, unlike training,
where parameter scaling saturates, test-time accuracy continues to improve
through increased generation. The code is available at
https://github.com/Infini-AI-Lab/Kinetics.