G^2RPO: GRPO Granular para Recompensa Precisas em Modelos de Fluxo
G^2RPO: Granular GRPO for Precise Reward in Flow Models
October 2, 2025
Autores: Yujie Zhou, Pengyang Ling, Jiazi Bu, Yibin Wang, Yuhang Zang, Jiaqi Wang, Li Niu, Guangtao Zhai
cs.AI
Resumo
A integração do aprendizado por reforço online (RL) em modelos de difusão e fluxo surgiu recentemente como uma abordagem promissora para alinhar modelos generativos com preferências humanas. A amostragem estocástica via Equações Diferenciais Estocásticas (SDE) é empregada durante o processo de remoção de ruído para gerar direções diversas de remoção de ruído para exploração em RL. Embora os métodos existentes explorem efetivamente amostras de alto valor potencial, eles sofrem com alinhamento subótimo de preferências devido a sinais de recompensa esparsos e estreitos. Para enfrentar esses desafios, propomos uma nova estrutura Granular-GRPO (G^2RPO) que alcança avaliações precisas e abrangentes de recompensas para direções de amostragem no aprendizado por reforço de modelos de fluxo. Especificamente, uma estratégia de Amostragem Estocástica Singular é introduzida para apoiar a exploração estocástica passo a passo, ao mesmo tempo em que reforça uma alta correlação entre a recompensa e o ruído injetado, facilitando assim uma recompensa fiel para cada perturbação SDE. Paralelamente, para eliminar o viés inerente à remoção de ruído de granularidade fixa, introduzimos um módulo de Integração de Vantagem Multi-Granularidade que agrega vantagens calculadas em múltiplas escalas de difusão, produzindo uma avaliação mais abrangente e robusta das direções de amostragem. Experimentos conduzidos em vários modelos de recompensa, incluindo avaliações dentro e fora do domínio, demonstram que nosso G^2RPO supera significativamente as linhas de base GRPO baseadas em fluxo, destacando sua eficácia e robustez.
English
The integration of online reinforcement learning (RL) into diffusion and flow
models has recently emerged as a promising approach for aligning generative
models with human preferences. Stochastic sampling via Stochastic Differential
Equations (SDE) is employed during the denoising process to generate diverse
denoising directions for RL exploration. While existing methods effectively
explore potential high-value samples, they suffer from sub-optimal preference
alignment due to sparse and narrow reward signals. To address these challenges,
we propose a novel Granular-GRPO (G^2RPO ) framework that achieves
precise and comprehensive reward assessments of sampling directions in
reinforcement learning of flow models. Specifically, a Singular Stochastic
Sampling strategy is introduced to support step-wise stochastic exploration
while enforcing a high correlation between the reward and the injected noise,
thereby facilitating a faithful reward for each SDE perturbation. Concurrently,
to eliminate the bias inherent in fixed-granularity denoising, we introduce a
Multi-Granularity Advantage Integration module that aggregates advantages
computed at multiple diffusion scales, producing a more comprehensive and
robust evaluation of the sampling directions. Experiments conducted on various
reward models, including both in-domain and out-of-domain evaluations,
demonstrate that our G^2RPO significantly outperforms existing
flow-based GRPO baselines,highlighting its effectiveness and robustness.