ChatPaper.aiChatPaper

G^2RPO: Granular GRPO per una Ricompensa Precisa nei Modelli di Flusso

G^2RPO: Granular GRPO for Precise Reward in Flow Models

October 2, 2025
Autori: Yujie Zhou, Pengyang Ling, Jiazi Bu, Yibin Wang, Yuhang Zang, Jiaqi Wang, Li Niu, Guangtao Zhai
cs.AI

Abstract

L'integrazione dell'apprendimento per rinforzo online (RL) nei modelli di diffusione e flusso è emersa recentemente come un approccio promettente per allineare i modelli generativi con le preferenze umane. Il campionamento stocastico tramite Equazioni Differenziali Stocastiche (SDE) viene impiegato durante il processo di denoising per generare direzioni di denoising diverse per l'esplorazione RL. Sebbene i metodi esistenti esplorino efficacemente potenziali campioni ad alto valore, soffrono di un allineamento subottimale delle preferenze a causa di segnali di ricompensa sparsi e ristretti. Per affrontare queste sfide, proponiamo un nuovo framework Granular-GRPO (G^2RPO) che raggiunge valutazioni precise e complete delle ricompense delle direzioni di campionamento nell'apprendimento per rinforzo dei modelli di flusso. Nello specifico, viene introdotta una strategia di Campionamento Stocastico Singolare per supportare l'esplorazione stocastica passo-passo, rafforzando al contempo un'elevata correlazione tra la ricompensa e il rumore iniettato, facilitando così una ricompensa fedele per ogni perturbazione SDE. Parallelamente, per eliminare il bias intrinseco nel denoising a granularità fissa, introduciamo un modulo di Integrazione dei Vantaggi a Multi-Granularità che aggrega i vantaggi calcolati su più scale di diffusione, producendo una valutazione più completa e robusta delle direzioni di campionamento. Gli esperimenti condotti su vari modelli di ricompensa, inclusi valutazioni in-dominio e out-of-dominio, dimostrano che il nostro G^2RPO supera significativamente le baseline GRPO basate su flusso esistenti, evidenziandone l'efficacia e la robustezza.
English
The integration of online reinforcement learning (RL) into diffusion and flow models has recently emerged as a promising approach for aligning generative models with human preferences. Stochastic sampling via Stochastic Differential Equations (SDE) is employed during the denoising process to generate diverse denoising directions for RL exploration. While existing methods effectively explore potential high-value samples, they suffer from sub-optimal preference alignment due to sparse and narrow reward signals. To address these challenges, we propose a novel Granular-GRPO (G^2RPO ) framework that achieves precise and comprehensive reward assessments of sampling directions in reinforcement learning of flow models. Specifically, a Singular Stochastic Sampling strategy is introduced to support step-wise stochastic exploration while enforcing a high correlation between the reward and the injected noise, thereby facilitating a faithful reward for each SDE perturbation. Concurrently, to eliminate the bias inherent in fixed-granularity denoising, we introduce a Multi-Granularity Advantage Integration module that aggregates advantages computed at multiple diffusion scales, producing a more comprehensive and robust evaluation of the sampling directions. Experiments conducted on various reward models, including both in-domain and out-of-domain evaluations, demonstrate that our G^2RPO significantly outperforms existing flow-based GRPO baselines,highlighting its effectiveness and robustness.
PDF52October 9, 2025