V-GRPO: El Aprendizaje por Refuerzo en Línea para Modelos Generativos de Eliminación de Ruido es Más Sencillo de lo que Parece
V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think
April 25, 2026
Autores: Bingda Tang, Yuhui Zhang, Xiaohan Wang, Jiayuan Mao, Ludwig Schmidt, Serena Yeung-Levy
cs.AI
Resumen
Alinear los modelos generativos de eliminación de ruido con las preferencias humanas o recompensas verificables sigue siendo un desafío clave. Si bien el aprendizaje por refuerzo (RL) en línea con gradiente de políticas ofrece un marco fundamental para el post-entrenamiento, su aplicación directa se ve obstaculizada por las verosimilitudes intratables de estos modelos. Por lo tanto, trabajos anteriores optimizan un proceso de decisión de Markov (MDP) inducido sobre las trayectorias de muestreo, lo cual es estable pero ineficiente, o utilizan aproximaciones de la verosimilitud basadas en la cota inferior de evidencia (ELBO) de difusión, que hasta ahora han tenido un rendimiento inferior en la generación visual. Nuestra idea clave es que el enfoque basado en ELBO puede, de hecho, volverse tanto estable como eficiente. Al reducir la varianza de la aproximación y controlar los pasos del gradiente, demostramos que este enfoque puede superar a los métodos basados en MDP. Con este fin, presentamos Variational GRPO (V-GRPO), un método que integra las aproximaciones basadas en ELBO con el algoritmo de Optimización de Políticas Relativas Grupales (GRPO), junto con un conjunto de técnicas simples pero esenciales. Nuestro método es fácil de implementar, se alinea con los objetivos del pre-entrenamiento y evita las limitaciones de los métodos basados en MDP. V-GRPO logra un rendimiento de vanguardia en la síntesis de texto a imagen, al tiempo que ofrece una aceleración de 2 veces sobre MixGRPO y de 3 veces sobre DiffusionNFT.
English
Aligning denoising generative models with human preferences or verifiable rewards remains a key challenge. While policy-gradient online reinforcement learning (RL) offers a principled post-training framework, its direct application is hindered by the intractable likelihoods of these models. Prior work therefore either optimizes an induced Markov decision process (MDP) over sampling trajectories, which is stable but inefficient, or uses likelihood surrogates based on the diffusion evidence lower bound (ELBO), which have so far underperformed on visual generation. Our key insight is that the ELBO-based approach can, in fact, be made both stable and efficient. By reducing surrogate variance and controlling gradient steps, we show that this approach can beat MDP-based methods. To this end, we introduce Variational GRPO (V-GRPO), a method that integrates ELBO-based surrogates with the Group Relative Policy Optimization (GRPO) algorithm, alongside a set of simple yet essential techniques. Our method is easy to implement, aligns with pretraining objectives, and avoids the limitations of MDP-based methods. V-GRPO achieves state-of-the-art performance in text-to-image synthesis, while delivering a 2times speedup over MixGRPO and a 3times speedup over DiffusionNFT.