G^2RPO: Granulares GRPO für präzise Belohnung in Flussmodellen

papers.abstract

Die Integration von Online Reinforcement Learning (RL) in Diffusions- und Flussmodelle hat sich kürzlich als vielversprechender Ansatz zur Ausrichtung generativer Modelle an menschlichen Präferenzen herausgestellt. Stochastisches Sampling über Stochastische Differentialgleichungen (SDE) wird während des Entrauschungsprozesses eingesetzt, um vielfältige Entrauschungsrichtungen für die RL-Exploration zu generieren. Während bestehende Methoden potenzielle Hochwertproben effektiv erkunden, leiden sie unter einer suboptimalen Präferenzausrichtung aufgrund von spärlichen und begrenzten Belohnungssignalen. Um diese Herausforderungen zu bewältigen, schlagen wir ein neuartiges Granular-GRPO (G^2RPO)-Framework vor, das präzise und umfassende Belohnungsbewertungen von Sampling-Richtungen im Reinforcement Learning von Flussmodellen ermöglicht. Insbesondere wird eine Singular Stochastic Sampling-Strategie eingeführt, um schrittweise stochastische Exploration zu unterstützen und gleichzeitig eine hohe Korrelation zwischen der Belohnung und dem injizierten Rauschen zu erzwingen, wodurch eine zuverlässige Belohnung für jede SDE-Störung ermöglicht wird. Gleichzeitig führen wir ein Multi-Granularity Advantage Integration-Modul ein, um die Verzerrung zu beseitigen, die in der Entrauschung mit fester Granularität inhärent ist. Dieses Modul aggregiert Vorteile, die auf mehreren Diffusionsskalen berechnet werden, und erzeugt so eine umfassendere und robustere Bewertung der Sampling-Richtungen. Experimente, die mit verschiedenen Belohnungsmodellen durchgeführt wurden, einschließlich In-Domain- und Out-of-Domain-Evaluierungen, zeigen, dass unser G^2RPO bestehende flussbasierte GRPO-Baselines deutlich übertrifft, was seine Effektivität und Robustheit unterstreicht.

English

The integration of online reinforcement learning (RL) into diffusion and flow models has recently emerged as a promising approach for aligning generative models with human preferences. Stochastic sampling via Stochastic Differential Equations (SDE) is employed during the denoising process to generate diverse denoising directions for RL exploration. While existing methods effectively explore potential high-value samples, they suffer from sub-optimal preference alignment due to sparse and narrow reward signals. To address these challenges, we propose a novel Granular-GRPO (G^2RPO ) framework that achieves precise and comprehensive reward assessments of sampling directions in reinforcement learning of flow models. Specifically, a Singular Stochastic Sampling strategy is introduced to support step-wise stochastic exploration while enforcing a high correlation between the reward and the injected noise, thereby facilitating a faithful reward for each SDE perturbation. Concurrently, to eliminate the bias inherent in fixed-granularity denoising, we introduce a Multi-Granularity Advantage Integration module that aggregates advantages computed at multiple diffusion scales, producing a more comprehensive and robust evaluation of the sampling directions. Experiments conducted on various reward models, including both in-domain and out-of-domain evaluations, demonstrate that our G^2RPO significantly outperforms existing flow-based GRPO baselines,highlighting its effectiveness and robustness.

G^2RPO: Granulares GRPO für präzise Belohnung in Flussmodellen

G^2RPO: Granular GRPO for Precise Reward in Flow Models

papers.abstract

Support