ReDit:LLMポリシー最適化のための報酬ディザリング
ReDit: Reward Dithering for Improved LLM Policy Optimization
June 23, 2025
著者: Chenxing Wei, Jiarui Yu, Ying Tiffany He, Hande Dong, Yao Shu, Fei Yu
cs.AI
要旨
DeepSeek-R1は、ルールベースの報酬システムを通じて大規模言語モデル(LLM)の推論能力を向上させることに成功しました。これは「完璧な」報酬システムであり、報酬ハッキングを効果的に軽減しますが、そのような報酬関数はしばしば離散的です。私たちの実験的観察によると、離散的な報酬は勾配異常、不安定な最適化、および収束の遅れを引き起こす可能性があります。この問題に対処するため、私たちはReDit(Reward Dithering)を提案します。これは、単純なランダムノイズを加えることで離散的な報酬信号をディザリングする方法です。この摂動された報酬により、学習プロセス全体を通じて探索的な勾配が継続的に提供され、よりスムーズな勾配更新と収束の加速が可能になります。注入されたノイズはまた、平坦な報酬領域に確率性を導入し、モデルが新しいポリシーを探索し、局所最適から脱出することを促します。多様なタスクにわたる実験は、ReDitの有効性と効率性を実証しています。平均して、ReDitはバニラGRPOと同等の性能を約10%のトレーニングステップで達成し、さらに、同様のトレーニング期間でバニラGRPOよりも4%の性能向上を示します。可視化により、ReDitによる勾配問題の大幅な軽減が確認されています。さらに、これらの利点をさらに検証するための理論的分析が提供されています。
English
DeepSeek-R1 has successfully enhanced Large Language Model (LLM) reasoning
capabilities through its rule-based reward system. While it's a ''perfect''
reward system that effectively mitigates reward hacking, such reward functions
are often discrete. Our experimental observations suggest that discrete rewards
can lead to gradient anomaly, unstable optimization, and slow convergence. To
address this issue, we propose ReDit (Reward Dithering), a method that dithers
the discrete reward signal by adding simple random noise. With this perturbed
reward, exploratory gradients are continuously provided throughout the learning
process, enabling smoother gradient updates and accelerating convergence. The
injected noise also introduces stochasticity into flat reward regions,
encouraging the model to explore novel policies and escape local optima.
Experiments across diverse tasks demonstrate the effectiveness and efficiency
of ReDit. On average, ReDit achieves performance comparable to vanilla GRPO
with only approximately 10% the training steps, and furthermore, still exhibits
a 4% performance improvement over vanilla GRPO when trained for a similar
duration. Visualizations confirm significant mitigation of gradient issues with
ReDit. Moreover, theoretical analyses are provided to further validate these
advantages.