ChatPaper.aiChatPaper

G^2RPO : GRPO Granulaire pour une Récompense Précise dans les Modèles de Flux

G^2RPO: Granular GRPO for Precise Reward in Flow Models

October 2, 2025
papers.authors: Yujie Zhou, Pengyang Ling, Jiazi Bu, Yibin Wang, Yuhang Zang, Jiaqi Wang, Li Niu, Guangtao Zhai
cs.AI

papers.abstract

L'intégration de l'apprentissage par renforcement en ligne (RL) dans les modèles de diffusion et de flux a récemment émergé comme une approche prometteuse pour aligner les modèles génératifs avec les préférences humaines. L'échantillonnage stochastique via les Équations Différentielles Stochastiques (SDE) est utilisé lors du processus de débruitage pour générer des directions de débruitage diversifiées pour l'exploration en RL. Bien que les méthodes existantes explorent efficacement les échantillons potentiels à haute valeur, elles souffrent d'un alignement sous-optimal des préférences en raison de signaux de récompense rares et étroits. Pour relever ces défis, nous proposons un nouveau cadre Granular-GRPO (G^2RPO) qui permet des évaluations précises et complètes des récompenses des directions d'échantillonnage dans l'apprentissage par renforcement des modèles de flux. Plus précisément, une stratégie d'Échantillonnage Stochastique Singulier est introduite pour soutenir une exploration stochastique pas à pas tout en renforçant une forte corrélation entre la récompense et le bruit injecté, facilitant ainsi une récompense fidèle pour chaque perturbation SDE. Parallèlement, pour éliminer le biais inhérent au débruitage à granularité fixe, nous introduisons un module d'Intégration d'Avantages Multi-Granularité qui agrège les avantages calculés à plusieurs échelles de diffusion, produisant une évaluation plus complète et robuste des directions d'échantillonnage. Les expériences menées sur divers modèles de récompense, incluant des évaluations intra-domaines et extra-domaines, démontrent que notre G^2RPO surpasse significativement les bases de référence GRPO basées sur les flux, mettant en évidence son efficacité et sa robustesse.
English
The integration of online reinforcement learning (RL) into diffusion and flow models has recently emerged as a promising approach for aligning generative models with human preferences. Stochastic sampling via Stochastic Differential Equations (SDE) is employed during the denoising process to generate diverse denoising directions for RL exploration. While existing methods effectively explore potential high-value samples, they suffer from sub-optimal preference alignment due to sparse and narrow reward signals. To address these challenges, we propose a novel Granular-GRPO (G^2RPO ) framework that achieves precise and comprehensive reward assessments of sampling directions in reinforcement learning of flow models. Specifically, a Singular Stochastic Sampling strategy is introduced to support step-wise stochastic exploration while enforcing a high correlation between the reward and the injected noise, thereby facilitating a faithful reward for each SDE perturbation. Concurrently, to eliminate the bias inherent in fixed-granularity denoising, we introduce a Multi-Granularity Advantage Integration module that aggregates advantages computed at multiple diffusion scales, producing a more comprehensive and robust evaluation of the sampling directions. Experiments conducted on various reward models, including both in-domain and out-of-domain evaluations, demonstrate that our G^2RPO significantly outperforms existing flow-based GRPO baselines,highlighting its effectiveness and robustness.
PDF52October 9, 2025