동역학: 테스트 시점 스케일링 법칙 재고
Kinetics: Rethinking Test-Time Scaling Laws
June 5, 2025
저자: Ranajoy Sadhukhan, Zhuoming Chen, Haizhong Zheng, Yang Zhou, Emma Strubell, Beidi Chen
cs.AI
초록
실용적인 효율성 관점에서 테스트 시점 스케일링 법칙을 재고하여, 더 작은 모델의 효과가 상당히 과대평가되었음을 밝혀냈다. 계산 최적화에 기반한 기존 연구는 추론 시점 전략(예: Best-of-N, 긴 CoTs)으로 인해 발생하는 중요한 메모리 접근 병목 현상을 간과했다. 0.6B에서 32B 파라미터에 이르는 모델을 포괄하는 우리의 종합적 분석은 계산 및 메모리 접근 비용을 모두 고려하여 자원 할당을 더 잘 안내하는 새로운 Kinetics 스케일링 법칙을 제시한다. Kinetics 스케일링 법칙은 테스트 시점 계산이 특정 임계값 이상의 모델에 사용될 때 더 효과적임을 시사한다. 이는 TTS에서 파라미터 수보다는 어텐션이 주요 비용 요인으로 부각되기 때문이다. 이를 바탕으로, 우리는 희소 어텐션을 중심으로 한 새로운 스케일링 패러다임을 제안한다. 이는 토큰당 비용을 낮추고 동일한 자원 예산 내에서 더 긴 생성과 더 많은 병렬 샘플을 가능하게 한다. 실험적으로, 희소 어텐션 모델이 조밀한 모델을 일관되게 능가하며, AIME에서 문제 해결 정확도 측면에서 저비용 영역에서 60점 이상, 고비용 영역에서 5점 이상의 성능 향상을 달성함을 보여준다. 이 결과는 희소 어텐션이 테스트 시점 스케일링의 전체 잠재력을 실현하는 데 필수적임을 시사한다. 이는 훈련 시 파라미터 스케일링이 포화되는 것과 달리, 테스트 시점 정확도는 생성량 증가를 통해 계속 개선되기 때문이다. 코드는 https://github.com/Infini-AI-Lab/Kinetics에서 확인할 수 있다.
English
We rethink test-time scaling laws from a practical efficiency perspective,
revealing that the effectiveness of smaller models is significantly
overestimated. Prior work, grounded in compute-optimality, overlooks critical
memory access bottlenecks introduced by inference-time strategies (e.g.,
Best-of-N, long CoTs). Our holistic analysis, spanning models from 0.6B to
32B parameters, reveals a new Kinetics Scaling Law that better guides resource
allocation by incorporating both computation and memory access costs. Kinetics
Scaling Law suggests that test-time compute is more effective when used on
models above a threshold than smaller ones. A key reason is that in TTS,
attention, rather than parameter count, emerges as the dominant cost factor.
Motivated by this, we propose a new scaling paradigm centered on sparse
attention, which lowers per-token cost and enables longer generations and more
parallel samples within the same resource budget. Empirically, we show that
sparse attention models consistently outperform dense counterparts, achieving
over 60 points gains in low-cost regimes and over 5 points gains in high-cost
regimes for problem-solving accuracy on AIME, encompassing evaluations on
state-of-the-art MoEs. These results suggest that sparse attention is essential
for realizing the full potential of test-time scaling because, unlike training,
where parameter scaling saturates, test-time accuracy continues to improve
through increased generation. The code is available at
https://github.com/Infini-AI-Lab/Kinetics.