V-GRPO : L'apprentissage par renforcement en ligne pour le débruitage de modèles génératifs est plus simple que vous ne le pensez

Résumé

L'alignement des modèles génératifs de débruitage avec les préférences humaines ou des récompenses vérifiables demeure un défi majeur. Bien que l'apprentissage par renforcement (RL) en ligne par gradient de politique offre un cadre théorique solide pour l'ajustement post-formation, son application directe est entravée par l'intractabilité des vraisemblances de ces modèles. Les travaux antérieurs optimisent donc soit un processus de décision markovien (MDP) induit sur les trajectoires d'échantillonnage, une approche stable mais inefficace, soit utilisent des substituts de vraisemblance basés sur l'Evidence Lower Bound (ELBO) de diffusion, qui ont jusqu'à présent sous-performé en génération visuelle. Notre idée clé est que l'approche basée sur l'ELBO peut, en réalité, être rendue à la fois stable et efficace. En réduisant la variance du substitut et en contrôlant les pas de gradient, nous montrons que cette approche peut surpasser les méthodes basées sur les MDP. À cette fin, nous présentons V-GRPO (Variational GRPO), une méthode qui intègre les substituts basés sur l'ELBO à l'algorithme Group Relative Policy Optimization (GRPO), accompagnée d'un ensemble de techniques simples mais essentielles. Notre méthode est facile à implémenter, s'aligne avec les objectifs de pré-formation et évite les limitations des méthodes basées sur les MDP. V-GRPO atteint des performances à l'état de l'art en synthèse texte-image, tout en offrant une accélération par 2 par rapport à MixGRPO et par 3 par rapport à DiffusionNFT.

English

Aligning denoising generative models with human preferences or verifiable rewards remains a key challenge. While policy-gradient online reinforcement learning (RL) offers a principled post-training framework, its direct application is hindered by the intractable likelihoods of these models. Prior work therefore either optimizes an induced Markov decision process (MDP) over sampling trajectories, which is stable but inefficient, or uses likelihood surrogates based on the diffusion evidence lower bound (ELBO), which have so far underperformed on visual generation. Our key insight is that the ELBO-based approach can, in fact, be made both stable and efficient. By reducing surrogate variance and controlling gradient steps, we show that this approach can beat MDP-based methods. To this end, we introduce Variational GRPO (V-GRPO), a method that integrates ELBO-based surrogates with the Group Relative Policy Optimization (GRPO) algorithm, alongside a set of simple yet essential techniques. Our method is easy to implement, aligns with pretraining objectives, and avoids the limitations of MDP-based methods. V-GRPO achieves state-of-the-art performance in text-to-image synthesis, while delivering a 2times speedup over MixGRPO and a 3times speedup over DiffusionNFT.

V-GRPO : L'apprentissage par renforcement en ligne pour le débruitage de modèles génératifs est plus simple que vous ne le pensez

V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think

Résumé

Support