知識の安定化と推論の促進:RLVRのためのデュアルトークン制約
Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR
July 21, 2025
著者: Jiakang Wang, Runze Liu, Fuzheng Zhang, Xiu Li, Guorui Zhou
cs.AI
要旨
検証可能な報酬を用いた強化学習(Reinforcement Learning with Verifiable Rewards, RLVR)は、大規模言語モデル(Large Language Models, LLMs)の推論能力を向上させるための効果的な事後学習手法として確立されており、主に反省や計画といった高次行動の形成に焦点を当てています。しかし、従来のRLVRアルゴリズムは、すべてのトークンに均一な学習信号を適用する傾向があり、低エントロピーの知識関連トークンと高エントロピーの推論関連トークンの異なる役割を考慮していませんでした。最近のいくつかの手法では、勾配マスキングや非同期更新を用いてこれらのトークンタイプを分離しようと試みていますが、これらのアプローチはモデル出力の意味的依存関係を破壊し、効果的な学習を妨げる可能性があります。本研究では、エントロピーを考慮したRLVR手法であるArcherを提案します。この手法は、二重トークン制約と同期更新を特徴とし、推論トークンには弱いKL正則化と高いクリッピング閾値を適用して探索を促進し、知識トークンには強い制約をかけて事実知識を維持します。いくつかの数学的推論およびコード生成ベンチマークでの実験結果は、本手法が従来のRLVR手法を大幅に上回り、同等サイズのモデルの中で最先端の性能に到達またはそれを超えることを示しています。コードはhttps://github.com/wizard-III/ArcherCodeRで公開されています。
English
Reinforcement Learning with Verifiable Rewards (RLVR) has become an effective
post-training method for improving the reasoning abilities of Large Language
Models (LLMs), mainly by shaping higher-order behaviors such as reflection and
planning. However, previous RLVR algorithms often apply uniform training
signals to all tokens, without considering the different roles of low-entropy
knowledge-related tokens and high-entropy reasoning-related tokens. Some recent
methods try to separate these token types by gradient masking or asynchronous
updates, but these approaches may break semantic dependencies in the model
output and hinder effective learning. In this work, we propose Archer, an
entropy-aware RLVR approach with dual-token constraints and synchronous
updates. Specifically, our method applies weaker KL regularization and higher
clipping thresholds to reasoning tokens to encourage exploration, while using
stronger constraints on knowledge tokens to maintain factual knowledge.
Experimental results on several mathematical reasoning and code generation
benchmarks show that our approach significantly outperforms previous RLVR
methods, reaching or exceeding state-of-the-art performance among models of
comparable size. The code is available at
https://github.com/wizard-III/ArcherCodeR.