G^2RPO: Granulares GRPO für präzise Belohnung in Flussmodellen
G^2RPO: Granular GRPO for Precise Reward in Flow Models
October 2, 2025
papers.authors: Yujie Zhou, Pengyang Ling, Jiazi Bu, Yibin Wang, Yuhang Zang, Jiaqi Wang, Li Niu, Guangtao Zhai
cs.AI
papers.abstract
Die Integration von Online Reinforcement Learning (RL) in Diffusions- und Flussmodelle hat sich kürzlich als vielversprechender Ansatz zur Ausrichtung generativer Modelle an menschlichen Präferenzen herausgestellt. Stochastisches Sampling über Stochastische Differentialgleichungen (SDE) wird während des Entrauschungsprozesses eingesetzt, um vielfältige Entrauschungsrichtungen für die RL-Exploration zu generieren. Während bestehende Methoden potenzielle Hochwertproben effektiv erkunden, leiden sie unter einer suboptimalen Präferenzausrichtung aufgrund von spärlichen und begrenzten Belohnungssignalen. Um diese Herausforderungen zu bewältigen, schlagen wir ein neuartiges Granular-GRPO (G^2RPO)-Framework vor, das präzise und umfassende Belohnungsbewertungen von Sampling-Richtungen im Reinforcement Learning von Flussmodellen ermöglicht. Insbesondere wird eine Singular Stochastic Sampling-Strategie eingeführt, um schrittweise stochastische Exploration zu unterstützen und gleichzeitig eine hohe Korrelation zwischen der Belohnung und dem injizierten Rauschen zu erzwingen, wodurch eine zuverlässige Belohnung für jede SDE-Störung ermöglicht wird. Gleichzeitig führen wir ein Multi-Granularity Advantage Integration-Modul ein, um die Verzerrung zu beseitigen, die in der Entrauschung mit fester Granularität inhärent ist. Dieses Modul aggregiert Vorteile, die auf mehreren Diffusionsskalen berechnet werden, und erzeugt so eine umfassendere und robustere Bewertung der Sampling-Richtungen. Experimente, die mit verschiedenen Belohnungsmodellen durchgeführt wurden, einschließlich In-Domain- und Out-of-Domain-Evaluierungen, zeigen, dass unser G^2RPO bestehende flussbasierte GRPO-Baselines deutlich übertrifft, was seine Effektivität und Robustheit unterstreicht.
English
The integration of online reinforcement learning (RL) into diffusion and flow
models has recently emerged as a promising approach for aligning generative
models with human preferences. Stochastic sampling via Stochastic Differential
Equations (SDE) is employed during the denoising process to generate diverse
denoising directions for RL exploration. While existing methods effectively
explore potential high-value samples, they suffer from sub-optimal preference
alignment due to sparse and narrow reward signals. To address these challenges,
we propose a novel Granular-GRPO (G^2RPO ) framework that achieves
precise and comprehensive reward assessments of sampling directions in
reinforcement learning of flow models. Specifically, a Singular Stochastic
Sampling strategy is introduced to support step-wise stochastic exploration
while enforcing a high correlation between the reward and the injected noise,
thereby facilitating a faithful reward for each SDE perturbation. Concurrently,
to eliminate the bias inherent in fixed-granularity denoising, we introduce a
Multi-Granularity Advantage Integration module that aggregates advantages
computed at multiple diffusion scales, producing a more comprehensive and
robust evaluation of the sampling directions. Experiments conducted on various
reward models, including both in-domain and out-of-domain evaluations,
demonstrate that our G^2RPO significantly outperforms existing
flow-based GRPO baselines,highlighting its effectiveness and robustness.