Cinética: Replanteando las leyes de escalamiento en tiempo de prueba

Resumen

Replanteamos las leyes de escalamiento en tiempo de prueba desde una perspectiva de eficiencia práctica, revelando que la efectividad de los modelos más pequeños está significativamente sobreestimada. Trabajos previos, basados en la optimalidad de cómputo, pasan por alto cuellos de botella críticos en el acceso a la memoria introducidos por estrategias en tiempo de inferencia (por ejemplo, Best-of-N, CoTs largos). Nuestro análisis holístico, que abarca modelos desde 0.6B hasta 32B parámetros, revela una nueva Ley de Escalamiento Cinético que guía mejor la asignación de recursos al incorporar tanto los costos de cómputo como los de acceso a la memoria. La Ley de Escalamiento Cinético sugiere que el cómputo en tiempo de prueba es más efectivo cuando se utiliza en modelos por encima de un umbral que en los más pequeños. Una razón clave es que, en TTS, la atención, en lugar del número de parámetros, surge como el factor de costo dominante. Motivados por esto, proponemos un nuevo paradigma de escalamiento centrado en la atención dispersa, que reduce el costo por token y permite generaciones más largas y más muestras paralelas dentro del mismo presupuesto de recursos. Empíricamente, demostramos que los modelos de atención dispersa superan consistentemente a sus contrapartes densas, logrando ganancias de más de 60 puntos en regímenes de bajo costo y más de 5 puntos en regímenes de alto costo para la precisión en la resolución de problemas en AIME, incluyendo evaluaciones en MoEs de última generación. Estos resultados sugieren que la atención dispersa es esencial para alcanzar el potencial completo del escalamiento en tiempo de prueba porque, a diferencia del entrenamiento, donde el escalamiento de parámetros se satura, la precisión en tiempo de prueba continúa mejorando a través de una mayor generación. El código está disponible en https://github.com/Infini-AI-Lab/Kinetics.

English

We rethink test-time scaling laws from a practical efficiency perspective, revealing that the effectiveness of smaller models is significantly overestimated. Prior work, grounded in compute-optimality, overlooks critical memory access bottlenecks introduced by inference-time strategies (e.g., Best-of-N, long CoTs). Our holistic analysis, spanning models from 0.6B to 32B parameters, reveals a new Kinetics Scaling Law that better guides resource allocation by incorporating both computation and memory access costs. Kinetics Scaling Law suggests that test-time compute is more effective when used on models above a threshold than smaller ones. A key reason is that in TTS, attention, rather than parameter count, emerges as the dominant cost factor. Motivated by this, we propose a new scaling paradigm centered on sparse attention, which lowers per-token cost and enables longer generations and more parallel samples within the same resource budget. Empirically, we show that sparse attention models consistently outperform dense counterparts, achieving over 60 points gains in low-cost regimes and over 5 points gains in high-cost regimes for problem-solving accuracy on AIME, encompassing evaluations on state-of-the-art MoEs. These results suggest that sparse attention is essential for realizing the full potential of test-time scaling because, unlike training, where parameter scaling saturates, test-time accuracy continues to improve through increased generation. The code is available at https://github.com/Infini-AI-Lab/Kinetics.

Cinética: Replanteando las leyes de escalamiento en tiempo de prueba

Kinetics: Rethinking Test-Time Scaling Laws

Resumen

Support