대규모 언어 모델을 위한 강화 학습 역학의 예측 가능성에 관하여
On Predictability of Reinforcement Learning Dynamics for Large Language Models
October 1, 2025
저자: Yuchen Cai, Ding Cao, Xin Xu, Zijun Yao, Yuqing Huang, Zhenyu Tan, Benyi Zhang, Guiquan Liu, Junfeng Fang
cs.AI
초록
대규모 언어 모델(LLM)의 추론 능력에 대한 최근의 발전은 주로 강화 학습(RL)에 의해 주도되고 있지만, RL 훈련 중의 내재적 매개변수 동역학은 여전히 잘 이해되지 않고 있습니다. 본 연구는 LLM에서 RL에 의해 유도된 매개변수 업데이트의 두 가지 근본적인 특성을 규명합니다: (1) Rank-1 지배성(Rank-1 Dominance), 즉 매개변수 업데이트 행렬의 최상위 특이값 부분공간이 추론 개선을 거의 완전히 결정하며, 성능 향상의 99% 이상을 복구한다는 것; (2) Rank-1 선형 동역학(Rank-1 Linear Dynamics), 즉 이 지배적인 부분공간이 훈련 전반에 걸쳐 선형적으로 진화하여 초기 체크포인트에서도 정확한 예측을 가능하게 한다는 것입니다. 8개의 LLM과 7개의 알고리즘에 걸친 광범위한 실험을 통해 이러한 특성의 일반화 가능성을 검증했습니다. 더 중요한 것은, 이러한 발견을 바탕으로 AlphaRL이라는 플러그인 가속화 프레임워크를 제안합니다. 이 프레임워크는 짧은 초기 훈련 기간을 사용하여 최종 매개변수 업데이트를 외삽함으로써, 추가 모듈이나 하이퍼파라미터 조정 없이도 2.5배의 속도 향상을 달성하면서 96% 이상의 추론 성능을 유지합니다. 이는 우리의 발견을 대규모 RL을 위한 다목적이고 실용적인 도구로 자리매김하며, LLM을 위한 원칙적이고 해석 가능하며 효율적인 훈련 패러다임으로의 길을 열어줍니다.
English
Recent advances in reasoning capabilities of large language models (LLMs) are
largely driven by reinforcement learning (RL), yet the underlying parameter
dynamics during RL training remain poorly understood. This work identifies two
fundamental properties of RL-induced parameter updates in LLMs: (1) Rank-1
Dominance, where the top singular subspace of the parameter update matrix
nearly fully determines reasoning improvements, recovering over 99\% of
performance gains; and (2) Rank-1 Linear Dynamics, where this dominant subspace
evolves linearly throughout training, enabling accurate prediction from early
checkpoints. Extensive experiments across 8 LLMs and 7 algorithms validate the
generalizability of these properties. More importantly, based on these
findings, we propose AlphaRL, a plug-in acceleration framework that
extrapolates the final parameter update using a short early training window,
achieving up to 2.5 speedup while retaining \textgreater 96\% of reasoning
performance without extra modules or hyperparameter tuning. This positions our
finding as a versatile and practical tool for large-scale RL, opening a path
toward principled, interpretable, and efficient training paradigm for LLMs.