ChatPaper.aiChatPaper

大規模言語モデルは自らの探索を導けるか?勾配誘導強化学習によるLLM推論

Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

December 17, 2025
著者: Zhenwen Liang, Sidi Lu, Wenhao Yu, Kishan Panaganti, Yujun Zhou, Haitao Mi, Dong Yu
cs.AI

要旨

強化学習は大規模言語モデルの推論能力を強化する上で不可欠となっているが、現在の探索メカニズムは、これらのモデルの実際の学習方法と根本的に整合していない。エントロピー報酬や外部の意味的比較器は表面的な多様性を促進するが、最適化を形作る更新方向においてサンプリングされた軌道が異なることを保証しない。本論文では、探索が外部ヒューリスティクスではなくモデル自身の一次更新幾何学によって駆動される、勾配誘導型強化学習フレームワークG2RLを提案する。G2RLは各応答に対して、標準的な順伝播で無視可能なコストで得られる最終層の感度からシーケンスレベルの特徴量を構築し、サンプリングされたグループ内でこれらの特徴量を比較することで各軌道が方策をどのように再形成するかを測定する。新規の勾配方向を導入する軌道には有界の乗算的報酬スケーラーが与えられ、冗長または多様体外の更新は強調されなくなる。これにより、PPOスタイルの安定性やKL制御と自然に整合した自己言及的な探索信号が得られる。Qwen3 base 1.7Bおよび4Bモデルを用いた数学および一般推論ベンチマーク(MATH500、AMC、AIME24、AIME25、GPQA、MMLUpro)において、G2RLはエントロピーベースのGRPOや外部埋め込み手法と比較して、pass@1、maj@16、pass@kを一貫して改善した。誘導された幾何学を分析すると、G2RLが意味的一貫性を維持しつつ、実質的により直交的かつしばしば反対方向の勾配への探索を拡大することがわかり、方策自身の更新空間が大規模言語モデル強化学習における探索を導くためにはるかに忠実で効果的な基盤を提供することを明らかにした。
English
Reinforcement learning has become essential for strengthening the reasoning abilities of large language models, yet current exploration mechanisms remain fundamentally misaligned with how these models actually learn. Entropy bonuses and external semantic comparators encourage surface level variation but offer no guarantee that sampled trajectories differ in the update directions that shape optimization. We propose G2RL, a gradient guided reinforcement learning framework in which exploration is driven not by external heuristics but by the model own first order update geometry. For each response, G2RL constructs a sequence level feature from the model final layer sensitivity, obtainable at negligible cost from a standard forward pass, and measures how each trajectory would reshape the policy by comparing these features within a sampled group. Trajectories that introduce novel gradient directions receive a bounded multiplicative reward scaler, while redundant or off manifold updates are deemphasized, yielding a self referential exploration signal that is naturally aligned with PPO style stability and KL control. Across math and general reasoning benchmarks (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) on Qwen3 base 1.7B and 4B models, G2RL consistently improves pass@1, maj@16, and pass@k over entropy based GRPO and external embedding methods. Analyzing the induced geometry, we find that G2RL expands exploration into substantially more orthogonal and often opposing gradient directions while maintaining semantic coherence, revealing that a policy own update space provides a far more faithful and effective basis for guiding exploration in large language model reinforcement learning.
PDF132December 19, 2025