ChatPaper.aiChatPaper

G^2RPO: GRPO Granular para Recompensas Precisas en Modelos de Flujo

G^2RPO: Granular GRPO for Precise Reward in Flow Models

October 2, 2025
Autores: Yujie Zhou, Pengyang Ling, Jiazi Bu, Yibin Wang, Yuhang Zang, Jiaqi Wang, Li Niu, Guangtao Zhai
cs.AI

Resumen

La integración del aprendizaje por refuerzo en línea (RL) en modelos de difusión y flujo ha surgido recientemente como un enfoque prometedor para alinear modelos generativos con las preferencias humanas. Durante el proceso de eliminación de ruido, se emplea el muestreo estocástico mediante Ecuaciones Diferenciales Estocásticas (SDE) para generar direcciones diversas de eliminación de ruido que faciliten la exploración en RL. Aunque los métodos existentes exploran eficazmente muestras de alto valor potencial, presentan una alineación subóptima de preferencias debido a señales de recompensa escasas y limitadas. Para abordar estos desafíos, proponemos un nuevo marco denominado Granular-GRPO (G^2RPO) que logra evaluaciones de recompensa precisas y exhaustivas de las direcciones de muestreo en el aprendizaje por refuerzo de modelos de flujo. Específicamente, se introduce una estrategia de Muestreo Estocástico Singular para respaldar la exploración estocástica paso a paso mientras se refuerza una alta correlación entre la recompensa y el ruido inyectado, facilitando así una recompensa fiel para cada perturbación SDE. Paralelamente, para eliminar el sesgo inherente a la eliminación de ruido con granularidad fija, introducimos un módulo de Integración de Ventajas Multi-Granularidad que agrega ventajas calculadas en múltiples escalas de difusión, produciendo una evaluación más completa y robusta de las direcciones de muestreo. Los experimentos realizados en diversos modelos de recompensa, incluyendo evaluaciones dentro y fuera del dominio, demuestran que nuestro G^2RPO supera significativamente a los baselines GRPO basados en flujo, destacando su efectividad y robustez.
English
The integration of online reinforcement learning (RL) into diffusion and flow models has recently emerged as a promising approach for aligning generative models with human preferences. Stochastic sampling via Stochastic Differential Equations (SDE) is employed during the denoising process to generate diverse denoising directions for RL exploration. While existing methods effectively explore potential high-value samples, they suffer from sub-optimal preference alignment due to sparse and narrow reward signals. To address these challenges, we propose a novel Granular-GRPO (G^2RPO ) framework that achieves precise and comprehensive reward assessments of sampling directions in reinforcement learning of flow models. Specifically, a Singular Stochastic Sampling strategy is introduced to support step-wise stochastic exploration while enforcing a high correlation between the reward and the injected noise, thereby facilitating a faithful reward for each SDE perturbation. Concurrently, to eliminate the bias inherent in fixed-granularity denoising, we introduce a Multi-Granularity Advantage Integration module that aggregates advantages computed at multiple diffusion scales, producing a more comprehensive and robust evaluation of the sampling directions. Experiments conducted on various reward models, including both in-domain and out-of-domain evaluations, demonstrate that our G^2RPO significantly outperforms existing flow-based GRPO baselines,highlighting its effectiveness and robustness.
PDF52October 9, 2025