ChatPaper.aiChatPaper

대규모 언어 모델을 위한 강화 학습 역학의 예측 가능성에 관하여

On Predictability of Reinforcement Learning Dynamics for Large Language Models

October 1, 2025
저자: Yuchen Cai, Ding Cao, Xin Xu, Zijun Yao, Yuqing Huang, Zhenyu Tan, Benyi Zhang, Guiquan Liu, Junfeng Fang
cs.AI

초록

대규모 언어 모델(LLM)의 추론 능력에 대한 최근의 발전은 주로 강화 학습(RL)에 의해 주도되고 있지만, RL 훈련 중의 내재적 매개변수 동역학은 여전히 잘 이해되지 않고 있습니다. 본 연구는 LLM에서 RL에 의해 유도된 매개변수 업데이트의 두 가지 근본적인 특성을 규명합니다: (1) Rank-1 지배성(Rank-1 Dominance), 즉 매개변수 업데이트 행렬의 최상위 특이값 부분공간이 추론 개선을 거의 완전히 결정하며, 성능 향상의 99% 이상을 복구한다는 것; (2) Rank-1 선형 동역학(Rank-1 Linear Dynamics), 즉 이 지배적인 부분공간이 훈련 전반에 걸쳐 선형적으로 진화하여 초기 체크포인트에서도 정확한 예측을 가능하게 한다는 것입니다. 8개의 LLM과 7개의 알고리즘에 걸친 광범위한 실험을 통해 이러한 특성의 일반화 가능성을 검증했습니다. 더 중요한 것은, 이러한 발견을 바탕으로 AlphaRL이라는 플러그인 가속화 프레임워크를 제안합니다. 이 프레임워크는 짧은 초기 훈련 기간을 사용하여 최종 매개변수 업데이트를 외삽함으로써, 추가 모듈이나 하이퍼파라미터 조정 없이도 2.5배의 속도 향상을 달성하면서 96% 이상의 추론 성능을 유지합니다. 이는 우리의 발견을 대규모 RL을 위한 다목적이고 실용적인 도구로 자리매김하며, LLM을 위한 원칙적이고 해석 가능하며 효율적인 훈련 패러다임으로의 길을 열어줍니다.
English
Recent advances in reasoning capabilities of large language models (LLMs) are largely driven by reinforcement learning (RL), yet the underlying parameter dynamics during RL training remain poorly understood. This work identifies two fundamental properties of RL-induced parameter updates in LLMs: (1) Rank-1 Dominance, where the top singular subspace of the parameter update matrix nearly fully determines reasoning improvements, recovering over 99\% of performance gains; and (2) Rank-1 Linear Dynamics, where this dominant subspace evolves linearly throughout training, enabling accurate prediction from early checkpoints. Extensive experiments across 8 LLMs and 7 algorithms validate the generalizability of these properties. More importantly, based on these findings, we propose AlphaRL, a plug-in acceleration framework that extrapolates the final parameter update using a short early training window, achieving up to 2.5 speedup while retaining \textgreater 96\% of reasoning performance without extra modules or hyperparameter tuning. This positions our finding as a versatile and practical tool for large-scale RL, opening a path toward principled, interpretable, and efficient training paradigm for LLMs.
PDF82October 2, 2025