雑音を減らし、声を増やす:指示の純化による推論のための強化学習
Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification
January 29, 2026
著者: Yiju Guo, Tianyi Hu, Zexu Sun, Yankai Lin
cs.AI
要旨
検証可能な報酬による強化学習(RLVR)は大規模言語モデルの推論能力を向上させてきたが、限定的なロールアウト予算下での非効率的な探索に制約され、複雑なタスクではサンプリングの成功率が低く、訓練が不安定になる問題がある。我々は、多くの探索失敗が問題の難しさ自体ではなく、少数のプロンプトトークンがもたらす干渉に起因することを発見した。この知見に基づき、干渉トークンを特定して除去する前処理を行う「低雑音サンプリングフレームワーク(LENS)」を提案する。LENSは、浄化プロセスで成功したロールアウトを転用し、元の雑音を含むプロンプトに対する方策最適化を指導する。これにより、現実の雑音を含むプロンプト環境下でモデルが干渉を無視することを学習できる。実験結果では、LENSがGRPOを大幅に上回り、高い性能と高速な収束を実現し、平均3.88%の性能向上と1.6倍以上の高速化を達成した。本研究は、ロールアウト効率改善における干渉トークンの除去の重要性を明らかにし、RLVR研究に新たな視点を提供する。
English
Reinforcement Learning with Verifiable Rewards (RLVR) has advanced LLM reasoning, but remains constrained by inefficient exploration under limited rollout budgets, leading to low sampling success and unstable training in complex tasks. We find that many exploration failures arise not from problem difficulty, but from a small number of prompt tokens that introduce interference. Building on this insight, we propose the Less Noise Sampling Framework (LENS), which first prompts by identifying and removing interference tokens. then transfers successful rollouts from the purification process to supervise policy optimization on the original noisy prompts, enabling the model to learn to ignore interference in the real-world, noisy prompting settings. Experimental results show that LENS significantly outperforms GRPO, delivering higher performance and faster convergence, with a 3.88% average gain and over 1.6times speedup. Our work highlights the critical role of pruning interference tokens in improving rollout efficiency, offering a new perspective for RLVR research.