V-GRPO: Online Reinforcement Learning voor het Ontruisen van Generatieve Modellen is Makkelijker dan je Denkt

Samenvatting

Het afstemmen van denoisende generatieve modellen op menselijke voorkeuren of verifieerbare beloningen blijft een grote uitdaging. Hoewel policy-gradient online reinforcement learning (RL) een principieel post-training raamwerk biedt, wordt de directe toepassing ervan belemmerd door de onhanteerbare likelihoods van deze modellen. Eerdere werk optimaliseert daarom ofwel een geïnduceerd Markov decision process (MDP) over sample-trajectories, wat stabiel maar inefficiënt is, of gebruikt likelihood-surrogaten gebaseerd op de diffusion evidence lower bound (ELBO), die tot dusver onderpresteerden bij visuele generatie. Onze belangrijkste bevinding is dat de ELBO-gebaseerde aanpak in feite zowel stabiel als efficiënt gemaakt kan worden. Door de variantie van het surrogaat te verlagen en gradientstappen te controleren, tonen we aan dat deze aanpak MDP-gebaseerde methodes kan verslaan. Hiertoe introduceren we Variational GRPO (V-GRPO), een methode die ELBO-gebaseerde surrogaten integreert met het Group Relative Policy Optimization (GRPO) algoritme, samen met een reeks eenvoudige maar essentiële technieken. Onze methode is eenvoudig te implementeren, sluit aan bij pre-trainingsdoelstellingen en vermijdt de beperkingen van MDP-gebaseerde methodes. V-GRPO behaalt state-of-the-art prestaties in tekst-naar-beeld synthese, terwijl het een 2x snelheidsverbetering oplevert ten opzichte van MixGRPO en een 3x snelheidsverbetering ten opzichte van DiffusionNFT.

English

Aligning denoising generative models with human preferences or verifiable rewards remains a key challenge. While policy-gradient online reinforcement learning (RL) offers a principled post-training framework, its direct application is hindered by the intractable likelihoods of these models. Prior work therefore either optimizes an induced Markov decision process (MDP) over sampling trajectories, which is stable but inefficient, or uses likelihood surrogates based on the diffusion evidence lower bound (ELBO), which have so far underperformed on visual generation. Our key insight is that the ELBO-based approach can, in fact, be made both stable and efficient. By reducing surrogate variance and controlling gradient steps, we show that this approach can beat MDP-based methods. To this end, we introduce Variational GRPO (V-GRPO), a method that integrates ELBO-based surrogates with the Group Relative Policy Optimization (GRPO) algorithm, alongside a set of simple yet essential techniques. Our method is easy to implement, aligns with pretraining objectives, and avoids the limitations of MDP-based methods. V-GRPO achieves state-of-the-art performance in text-to-image synthesis, while delivering a 2times speedup over MixGRPO and a 3times speedup over DiffusionNFT.

V-GRPO: Online Reinforcement Learning voor het Ontruisen van Generatieve Modellen is Makkelijker dan je Denkt

V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think

Samenvatting

Support