角度は嘘をつかない:モデル自身の信号を通じた効率的な強化学習の実現
Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals
June 2, 2025
著者: Qinsi Wang, Jinghan Ke, Hancheng Ye, Yueqian Lin, Yuzhe Fu, Jianyi Zhang, Kurt Keutzer, Chenfeng Xu, Yiran Chen
cs.AI
要旨
現在の大規模言語モデル(LLM)に対する強化学習微調整(RFT)のパラダイムは、均一なデータサンプリングによる同一クエリの冗長な露出により、サンプル効率が低下する問題を抱えています。これまでの研究では、ヒューリスティックな難易度指標を用いたカリキュラム学習が探求されてきましたが、これらの戦略はモデル自体が生成する内在的な学習信号を無視するため、最適ではない訓練体制につながるという限界があります。本論文では、LLMが特定のデータから学習する能力を効果的に反映する、角度集中(angle concentration)と呼ばれるモデル内在信号を特定します。我々は、トークンの隠れ状態ベクトルの角度分布とそれに伴う勾配との相関を理論的かつ実証的に示し、角度集中が高いデータに対する学習の選好を明らかにします。この発見に基づき、我々は勾配駆動型角度情報ナビゲーション強化学習フレームワーク(GAIN-RL)を提案します。GAIN-RLは、モデルの内在的な角度集中信号を活用して各エポックで訓練データを動的に選択し、一貫して影響力のある勾配更新を保証することで、全体の訓練効率を大幅に向上させます。実証評価では、GAIN-RL(GRPO)が多様な数学およびコーディングタスク、および様々なモデルスケールにおいて、訓練効率を2.5倍以上加速することを示しています。さらに、GAIN-RL(GRPO)の効率的なサンプリングはデータ効率的な訓練を実現し、元のデータの半分で従来のGRPOと同等以上の性能を達成します。コードはhttps://github.com/wangqinsi1/GAINRL/tree/mainで公開されています。
English
Current Reinforcement Fine-tuning (RFT) paradigms for Large Language Models
(LLMs) suffer from sample inefficiency due to the redundant exposure of
identical queries under uniform data sampling. While previous work has explored
curriculum learning via heuristic difficulty metrics, these strategies exhibit
limitations by neglecting the intrinsic learning signals generated by the model
itself, thus leading to suboptimal training regimes. In this paper, we identify
a model-inherent signal termed angle concentration that effectively reflects an
LLM's capacity to learn from specific data. We theoretically and empirically
demonstrate a correlation between the angular distribution of token hidden
state vectors and the resulting gradient, revealing a learning preference for
data exhibiting higher angle concentration. Inspired by this finding, we
propose GAIN-RL, a Gradient-driven Angle-Informed Navigated RL framework. By
leveraging the model's intrinsic angle concentration signal, GAIN-RL
dynamically selects training data in each epoch, ensuring consistently
impactful gradient updates and thus significantly enhancing overall training
efficiency. Empirical evaluations show that GAIN-RL (GRPO) achieves over a 2.5x
acceleration in training efficiency across diverse mathematical and coding
tasks and varying model scales. Furthermore, GAIN-RL (GRPO)'s efficient
sampling yields data-efficient training, achieving better performance with half
the original data compared to vanilla GRPO with full training data. Code is
realsed at https://github.com/wangqinsi1/GAINRL/tree/main.