ChatPaper.aiChatPaper

V-GRPO:ノイズ除去生成モデルのためのオンライン強化学習は想像以上に容易である

V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think

April 25, 2026
著者: Bingda Tang, Yuhui Zhang, Xiaohan Wang, Jiayuan Mao, Ludwig Schmidt, Serena Yeung-Levy
cs.AI

要旨

ノイズ除去生成モデルを人間の選好や検証可能な報酬に適合させることは、依然として重要な課題である。方策勾配によるオンライン強化学習(RL)は原理的に堅牢な学習後フレームワークを提供するが、これらのモデルが持つ扱いにくい尤度により直接適用は妨げられてきた。このため、従来研究では、サンプリング軌道上に誘導されたマルコフ決定過程(MDP)を最適化する(安定しているが非効率な)手法か、または拡散証拠下限界(ELBO)に基づく尤度代理指標を用いる(これまで視覚生成では十分な性能を発揮していない)手法のいずれかが採用されてきた。我々の重要な知見は、ELBOベースのアプローチが、実際には安定性と効率性の両立が可能であるという点である。代理指標の分散低減と勾配ステップの制御により、このアプローチがMDPベース手法を上回り得ることを示す。この目的のために、我々はVariational GRPO(V-GRPO)を提案する。この手法は、ELBOベースの代理指標をGroup Relative Policy Optimization(GRPO)アルゴリズムと統合し、さらにシンプルかつ不可欠な技術群を組み合わせたものである。我々の手法は実装が容易で、事前学習の目的と整合し、MDPベース手法の限界を回避する。V-GRPOは、テキストから画像への合成タスクにおいて最先端の性能を達成し、MixGRPOに対して2倍、DiffusionNFTに対して3倍の高速化を実現した。
English
Aligning denoising generative models with human preferences or verifiable rewards remains a key challenge. While policy-gradient online reinforcement learning (RL) offers a principled post-training framework, its direct application is hindered by the intractable likelihoods of these models. Prior work therefore either optimizes an induced Markov decision process (MDP) over sampling trajectories, which is stable but inefficient, or uses likelihood surrogates based on the diffusion evidence lower bound (ELBO), which have so far underperformed on visual generation. Our key insight is that the ELBO-based approach can, in fact, be made both stable and efficient. By reducing surrogate variance and controlling gradient steps, we show that this approach can beat MDP-based methods. To this end, we introduce Variational GRPO (V-GRPO), a method that integrates ELBO-based surrogates with the Group Relative Policy Optimization (GRPO) algorithm, alongside a set of simple yet essential techniques. Our method is easy to implement, aligns with pretraining objectives, and avoids the limitations of MDP-based methods. V-GRPO achieves state-of-the-art performance in text-to-image synthesis, while delivering a 2times speedup over MixGRPO and a 3times speedup over DiffusionNFT.
PDF21April 30, 2026