G^2RPO: フローモデルにおける精密な報酬のための粒度化GRPO
G^2RPO: Granular GRPO for Precise Reward in Flow Models
October 2, 2025
著者: Yujie Zhou, Pengyang Ling, Jiazi Bu, Yibin Wang, Yuhang Zang, Jiaqi Wang, Li Niu, Guangtao Zhai
cs.AI
要旨
拡散モデルやフローモデルへのオンライン強化学習(RL)の統合は、生成モデルを人間の好みに合わせるための有望なアプローチとして最近注目を集めています。ノイズ除去プロセスにおいて、確率微分方程式(SDE)を用いた確率的サンプリングが採用され、RL探索のための多様なノイズ除去方向を生成します。既存の手法は潜在的な高価値サンプルの探索に効果的ですが、報酬信号が疎で狭いため、最適な好みの整合性が得られないという課題があります。これらの課題に対処するため、我々は新しいGranular-GRPO(G^2RPO)フレームワークを提案します。このフレームワークは、フローモデルの強化学習において、サンプリング方向の正確かつ包括的な報酬評価を実現します。具体的には、Singular Stochastic Sampling戦略を導入し、ステップごとの確率的探索をサポートするとともに、報酬と注入されたノイズの間の高い相関を強制することで、各SDE摂動に対する忠実な報酬を促進します。同時に、固定粒度のノイズ除去に内在するバイアスを排除するため、複数の拡散スケールで計算された利点を集約するMulti-Granularity Advantage Integrationモジュールを導入し、サンプリング方向のより包括的で堅牢な評価を生成します。ドメイン内およびドメイン外評価を含む様々な報酬モデルで実施した実験により、我々のG^2RPOが既存のフローベースのGRPOベースラインを大幅に上回ることが示され、その有効性と堅牢性が強調されています。
English
The integration of online reinforcement learning (RL) into diffusion and flow
models has recently emerged as a promising approach for aligning generative
models with human preferences. Stochastic sampling via Stochastic Differential
Equations (SDE) is employed during the denoising process to generate diverse
denoising directions for RL exploration. While existing methods effectively
explore potential high-value samples, they suffer from sub-optimal preference
alignment due to sparse and narrow reward signals. To address these challenges,
we propose a novel Granular-GRPO (G^2RPO ) framework that achieves
precise and comprehensive reward assessments of sampling directions in
reinforcement learning of flow models. Specifically, a Singular Stochastic
Sampling strategy is introduced to support step-wise stochastic exploration
while enforcing a high correlation between the reward and the injected noise,
thereby facilitating a faithful reward for each SDE perturbation. Concurrently,
to eliminate the bias inherent in fixed-granularity denoising, we introduce a
Multi-Granularity Advantage Integration module that aggregates advantages
computed at multiple diffusion scales, producing a more comprehensive and
robust evaluation of the sampling directions. Experiments conducted on various
reward models, including both in-domain and out-of-domain evaluations,
demonstrate that our G^2RPO significantly outperforms existing
flow-based GRPO baselines,highlighting its effectiveness and robustness.