E-GRPO:高エントロピー段階がフローモデルの効果的強化学習を駆動する
E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models
January 1, 2026
著者: Shengjun Zhang, Zhang Zhang, Chensheng Dai, Yueqi Duan
cs.AI
要旨
近年の強化学習は、人間の嗜好に沿ったフローマッチングモデルの改善に貢献してきた。確率的サンプリングはノイズ除去方向の探索を可能にする一方で、複数のノイズ除去ステップにわたって最適化を行う既存手法は、スパースで曖昧な報酬信号に悩まされている。我々は、エントロピーが高いステップではより効率的かつ効果的な探索が可能となるのに対し、エントロピーが低いステップでは区別のつきにくいロールアウトが生じることを観察した。この問題に対処するため、我々はSDEサンプリングステップのエントロピーを高めるエントロピー認識型グループ相対方策最適化(E-GRPO)を提案する。確率微分方程式の統合は複数ステップからの確率性により曖昧な報酬信号が生じるため、連続する低エントロピーステップを統合して一つの高エントロピーSDEサンプリングステップを構成し、その他のステップにはODEサンプリングを適用する。これを基盤として、同一の統合SDEノイズ除去ステップを共有するサンプル内でグループ相対アドバンテージを計算する、多ステップグループ正規化アドバンテージを導入する。様々な報酬設定における実験結果は、本手法の有効性を実証している。
English
Recent reinforcement learning has enhanced the flow matching models on human preference alignment. While stochastic sampling enables the exploration of denoising directions, existing methods which optimize over multiple denoising steps suffer from sparse and ambiguous reward signals. We observe that the high entropy steps enable more efficient and effective exploration while the low entropy steps result in undistinguished roll-outs. To this end, we propose E-GRPO, an entropy aware Group Relative Policy Optimization to increase the entropy of SDE sampling steps. Since the integration of stochastic differential equations suffer from ambiguous reward signals due to stochasticity from multiple steps, we specifically merge consecutive low entropy steps to formulate one high entropy step for SDE sampling, while applying ODE sampling on other steps. Building upon this, we introduce multi-step group normalized advantage, which computes group-relative advantages within samples sharing the same consolidated SDE denoising step. Experimental results on different reward settings have demonstrated the effectiveness of our methods.