ChatPaper.aiChatPaper

G^2RPO: Granulair GRPO voor Precieze Beloning in Stroommodellen

G^2RPO: Granular GRPO for Precise Reward in Flow Models

October 2, 2025
Auteurs: Yujie Zhou, Pengyang Ling, Jiazi Bu, Yibin Wang, Yuhang Zang, Jiaqi Wang, Li Niu, Guangtao Zhai
cs.AI

Samenvatting

De integratie van online reinforcement learning (RL) in diffusie- en stroommodellen is recentelijk naar voren gekomen als een veelbelovende aanpak voor het afstemmen van generatieve modellen op menselijke voorkeuren. Stochastische steekproefname via Stochastic Differential Equations (SDE) wordt gebruikt tijdens het denoisingsproces om diverse denoisingrichtingen te genereren voor RL-exploratie. Hoewel bestaande methoden effectief potentiële hoogwaardige samples verkennen, lijden ze onder suboptimale voorkeursafstemming vanwege spaarzame en smalle beloningssignalen. Om deze uitdagingen aan te pakken, stellen we een nieuw Granular-GRPO (G^2RPO) raamwerk voor dat nauwkeurige en uitgebreide beloningsbeoordelingen van steekproefrichtingen bereikt in reinforcement learning van stroommodellen. Specifiek wordt een Singular Stochastic Sampling strategie geïntroduceerd om stapsgewijze stochastische exploratie te ondersteunen terwijl een hoge correlatie tussen de beloning en het geïnjecteerde ruis wordt afgedwongen, waardoor een betrouwbare beloning voor elke SDE-verstoring wordt gefaciliteerd. Tegelijkertijd introduceren we een Multi-Granularity Advantage Integration module om de bias inherent aan vaste-granulariteit denoising te elimineren, die voordelen berekend op meerdere diffusieschalen aggregeert, wat resulteert in een uitgebreidere en robuustere evaluatie van de steekproefrichtingen. Experimenten uitgevoerd op verschillende beloningsmodellen, inclusief zowel in-domein als out-of-domein evaluaties, tonen aan dat onze G^2RPO significant beter presteert dan bestaande stroomgebaseerde GRPO-baselines, wat de effectiviteit en robuustheid ervan benadrukt.
English
The integration of online reinforcement learning (RL) into diffusion and flow models has recently emerged as a promising approach for aligning generative models with human preferences. Stochastic sampling via Stochastic Differential Equations (SDE) is employed during the denoising process to generate diverse denoising directions for RL exploration. While existing methods effectively explore potential high-value samples, they suffer from sub-optimal preference alignment due to sparse and narrow reward signals. To address these challenges, we propose a novel Granular-GRPO (G^2RPO ) framework that achieves precise and comprehensive reward assessments of sampling directions in reinforcement learning of flow models. Specifically, a Singular Stochastic Sampling strategy is introduced to support step-wise stochastic exploration while enforcing a high correlation between the reward and the injected noise, thereby facilitating a faithful reward for each SDE perturbation. Concurrently, to eliminate the bias inherent in fixed-granularity denoising, we introduce a Multi-Granularity Advantage Integration module that aggregates advantages computed at multiple diffusion scales, producing a more comprehensive and robust evaluation of the sampling directions. Experiments conducted on various reward models, including both in-domain and out-of-domain evaluations, demonstrate that our G^2RPO significantly outperforms existing flow-based GRPO baselines,highlighting its effectiveness and robustness.
PDF52October 9, 2025