G^2RPO: 흐름 모델에서 정확한 보상을 위한 세분화된 GRPO
G^2RPO: Granular GRPO for Precise Reward in Flow Models
October 2, 2025
저자: Yujie Zhou, Pengyang Ling, Jiazi Bu, Yibin Wang, Yuhang Zang, Jiaqi Wang, Li Niu, Guangtao Zhai
cs.AI
초록
디퓨전 및 플로우 모델에 온라인 강화 학습(RL)을 통합하는 것은 최근 생성 모델을 인간의 선호도와 맞추기 위한 유망한 접근 방식으로 부상했습니다. 디노이징 과정에서 확률적 미분 방정식(SDE)을 통한 확률적 샘플링이 사용되어 RL 탐색을 위한 다양한 디노이징 방향을 생성합니다. 기존 방법들은 잠재적 고가치 샘플을 효과적으로 탐색하지만, 희소하고 좁은 보상 신호로 인해 최적의 선호도 정렬을 달성하지 못하는 문제가 있습니다. 이러한 문제를 해결하기 위해, 우리는 플로우 모델의 강화 학습에서 샘플링 방향에 대한 정밀하고 포괄적인 보상 평가를 달성하는 새로운 Granular-GRPO(G^2RPO) 프레임워크를 제안합니다. 구체적으로, 단일 확률적 샘플링 전략을 도입하여 단계별 확률적 탐색을 지원하면서 보상과 주입된 노이즈 간의 높은 상관관계를 강제하여 각 SDE 섭동에 대한 충실한 보상을 가능하게 합니다. 동시에, 고정된 세분성 디노이징에 내재된 편향을 제거하기 위해, 여러 디퓨전 스케일에서 계산된 이점을 통합하는 다중 세분성 이점 통합 모듈을 도입하여 샘플링 방향에 대한 더 포괄적이고 강력한 평가를 생성합니다. 도메인 내 및 도메인 외 평가를 포함한 다양한 보상 모델에서 수행된 실험은 우리의 G^2RPO가 기존의 플로우 기반 GRPO 기준선을 크게 능가하며, 그 효과성과 견고성을 입증합니다.
English
The integration of online reinforcement learning (RL) into diffusion and flow
models has recently emerged as a promising approach for aligning generative
models with human preferences. Stochastic sampling via Stochastic Differential
Equations (SDE) is employed during the denoising process to generate diverse
denoising directions for RL exploration. While existing methods effectively
explore potential high-value samples, they suffer from sub-optimal preference
alignment due to sparse and narrow reward signals. To address these challenges,
we propose a novel Granular-GRPO (G^2RPO ) framework that achieves
precise and comprehensive reward assessments of sampling directions in
reinforcement learning of flow models. Specifically, a Singular Stochastic
Sampling strategy is introduced to support step-wise stochastic exploration
while enforcing a high correlation between the reward and the injected noise,
thereby facilitating a faithful reward for each SDE perturbation. Concurrently,
to eliminate the bias inherent in fixed-granularity denoising, we introduce a
Multi-Granularity Advantage Integration module that aggregates advantages
computed at multiple diffusion scales, producing a more comprehensive and
robust evaluation of the sampling directions. Experiments conducted on various
reward models, including both in-domain and out-of-domain evaluations,
demonstrate that our G^2RPO significantly outperforms existing
flow-based GRPO baselines,highlighting its effectiveness and robustness.