Kinetics: Переосмысление законов масштабирования на этапе тестирования
Kinetics: Rethinking Test-Time Scaling Laws
June 5, 2025
Авторы: Ranajoy Sadhukhan, Zhuoming Chen, Haizhong Zheng, Yang Zhou, Emma Strubell, Beidi Chen
cs.AI
Аннотация
Мы переосмысливаем законы масштабирования на этапе тестирования с точки зрения практической эффективности, показывая, что эффективность меньших моделей значительно переоценена. Предыдущие работы, основанные на оптимальности вычислений, упускают из виду критические узкие места, связанные с доступом к памяти, которые возникают из-за стратегий на этапе вывода (например, Best-of-N, длинные цепочки рассуждений). Наш всесторонний анализ, охватывающий модели от 0.6 до 32 миллиардов параметров, выявляет новый закон масштабирования — Кинетический Закон Масштабирования, который лучше направляет распределение ресурсов, учитывая как затраты на вычисления, так и на доступ к памяти. Кинетический Закон Масштабирования предполагает, что вычислительные ресурсы на этапе тестирования более эффективны при использовании моделей, превышающих определенный порог, чем меньших моделей. Ключевая причина заключается в том, что на этапе тестирования доминирующим фактором затрат становится внимание, а не количество параметров. Вдохновленные этим, мы предлагаем новую парадигму масштабирования, основанную на разреженном внимании, которая снижает затраты на обработку одного токена и позволяет генерировать более длинные последовательности и больше параллельных выборок в рамках того же бюджета ресурсов. Эмпирически мы показываем, что модели с разреженным вниманием стабильно превосходят модели с плотным вниманием, достигая улучшения более чем на 60 пунктов в режимах с низкими затратами и более чем на 5 пунктов в режимах с высокими затратами для точности решения задач на AIME, включая оценки на современных моделях смеси экспертов (MoE). Эти результаты свидетельствуют о том, что разреженное внимание необходимо для полного раскрытия потенциала масштабирования на этапе тестирования, поскольку, в отличие от обучения, где масштабирование параметров достигает насыщения, точность на этапе тестирования продолжает улучшаться за счет увеличения генерации. Код доступен по адресу https://github.com/Infini-AI-Lab/Kinetics.
English
We rethink test-time scaling laws from a practical efficiency perspective,
revealing that the effectiveness of smaller models is significantly
overestimated. Prior work, grounded in compute-optimality, overlooks critical
memory access bottlenecks introduced by inference-time strategies (e.g.,
Best-of-N, long CoTs). Our holistic analysis, spanning models from 0.6B to
32B parameters, reveals a new Kinetics Scaling Law that better guides resource
allocation by incorporating both computation and memory access costs. Kinetics
Scaling Law suggests that test-time compute is more effective when used on
models above a threshold than smaller ones. A key reason is that in TTS,
attention, rather than parameter count, emerges as the dominant cost factor.
Motivated by this, we propose a new scaling paradigm centered on sparse
attention, which lowers per-token cost and enables longer generations and more
parallel samples within the same resource budget. Empirically, we show that
sparse attention models consistently outperform dense counterparts, achieving
over 60 points gains in low-cost regimes and over 5 points gains in high-cost
regimes for problem-solving accuracy on AIME, encompassing evaluations on
state-of-the-art MoEs. These results suggest that sparse attention is essential
for realizing the full potential of test-time scaling because, unlike training,
where parameter scaling saturates, test-time accuracy continues to improve
through increased generation. The code is available at
https://github.com/Infini-AI-Lab/Kinetics.