G^2RPO: Гранулированный GRPO для точного вознаграждения в потоковых моделях
G^2RPO: Granular GRPO for Precise Reward in Flow Models
October 2, 2025
Авторы: Yujie Zhou, Pengyang Ling, Jiazi Bu, Yibin Wang, Yuhang Zang, Jiaqi Wang, Li Niu, Guangtao Zhai
cs.AI
Аннотация
Интеграция онлайн-обучения с подкреплением (RL) в модели диффузии и потоков недавно стала перспективным подходом для согласования генеративных моделей с предпочтениями человека. Стохастическая выборка с использованием Стохастических Дифференциальных Уравнений (SDE) применяется в процессе удаления шума для генерации разнообразных направлений денизинга, что способствует исследованию в RL. Хотя существующие методы эффективно исследуют потенциально высокоценные образцы, они страдают от субоптимального согласования предпочтений из-за редких и узких сигналов вознаграждения. Для решения этих проблем мы предлагаем новый фреймворк Granular-GRPO (G^2RPO), который обеспечивает точную и всестороннюю оценку вознаграждений направлений выборки в обучении с подкреплением моделей потоков. В частности, вводится стратегия Singular Stochastic Sampling, которая поддерживает пошаговое стохастическое исследование, одновременно обеспечивая высокую корреляцию между вознаграждением и введенным шумом, что способствует достоверному вознаграждению для каждого возмущения SDE. Одновременно, чтобы устранить смещение, присущее денизингу с фиксированной гранулярностью, мы вводим модуль Multi-Granularity Advantage Integration, который агрегирует преимущества, вычисленные на нескольких масштабах диффузии, создавая более полную и устойчивую оценку направлений выборки. Эксперименты, проведенные на различных моделях вознаграждения, включая внутридоменные и внедоменные оценки, демонстрируют, что наш G^2RPO значительно превосходит существующие базовые методы GRPO, основанные на потоках, подчеркивая его эффективность и устойчивость.
English
The integration of online reinforcement learning (RL) into diffusion and flow
models has recently emerged as a promising approach for aligning generative
models with human preferences. Stochastic sampling via Stochastic Differential
Equations (SDE) is employed during the denoising process to generate diverse
denoising directions for RL exploration. While existing methods effectively
explore potential high-value samples, they suffer from sub-optimal preference
alignment due to sparse and narrow reward signals. To address these challenges,
we propose a novel Granular-GRPO (G^2RPO ) framework that achieves
precise and comprehensive reward assessments of sampling directions in
reinforcement learning of flow models. Specifically, a Singular Stochastic
Sampling strategy is introduced to support step-wise stochastic exploration
while enforcing a high correlation between the reward and the injected noise,
thereby facilitating a faithful reward for each SDE perturbation. Concurrently,
to eliminate the bias inherent in fixed-granularity denoising, we introduce a
Multi-Granularity Advantage Integration module that aggregates advantages
computed at multiple diffusion scales, producing a more comprehensive and
robust evaluation of the sampling directions. Experiments conducted on various
reward models, including both in-domain and out-of-domain evaluations,
demonstrate that our G^2RPO significantly outperforms existing
flow-based GRPO baselines,highlighting its effectiveness and robustness.