V-GRPO: Reinforcement Learning Online zur Entrauschung generativer Modelle ist einfacher als Sie denken

Zusammenfassung

Die Ausrichtung von entrauschenden generativen Modellen an menschlichen Präferenzen oder überprüfbaren Belohnungen bleibt eine zentrale Herausforderung. Während policy-basiertes Online Reinforcement Learning (RL) einen prinzipiellen Rahmen für das Nachtraining bietet, wird seine direkte Anwendung durch die nicht handhabbaren Likelihoods dieser Modelle behindert. Bestehende Arbeiten optimieren daher entweder einen induzierten Markov-Entscheidungsprozess (MDP) über Sampling-Trajektorien, was stabil aber ineffizient ist, oder verwenden Likelihood-Surrogate auf Basis der Diffusion Evidence Lower Bound (ELBO), die bisher bei der visuellen Generierung unterlegen waren. Unsere zentrale Erkenntnis ist, dass der ELBO-basierte Ansatz tatsächlich sowohl stabil als auch effizient gestaltet werden kann. Durch die Reduzierung der Surrogatvarianz und die Kontrolle von Gradientenschritten zeigen wir, dass dieser Ansatz MDP-basierte Methoden übertreffen kann. Zu diesem Zweck führen wir Variational GRPO (V-GRPO) ein, eine Methode, die ELBO-basierte Surrogate mit dem Group Relative Policy Optimization (GRPO)-Algorithmus sowie eine Reihe einfacher, aber wesentlicher Techniken integriert. Unser Ansatz ist einfach zu implementieren, steht im Einklang mit Vortrainingszielen und vermeidet die Einschränkungen MDP-basierter Methoden. V-GRPO erzielt state-of-the-art Leistung in der Text-zu-Bild-Synthese bei gleichzeitiger Verdopplung der Geschwindigkeit gegenüber MixGRPO und Verdreifachung gegenüber DiffusionNFT.

English

Aligning denoising generative models with human preferences or verifiable rewards remains a key challenge. While policy-gradient online reinforcement learning (RL) offers a principled post-training framework, its direct application is hindered by the intractable likelihoods of these models. Prior work therefore either optimizes an induced Markov decision process (MDP) over sampling trajectories, which is stable but inefficient, or uses likelihood surrogates based on the diffusion evidence lower bound (ELBO), which have so far underperformed on visual generation. Our key insight is that the ELBO-based approach can, in fact, be made both stable and efficient. By reducing surrogate variance and controlling gradient steps, we show that this approach can beat MDP-based methods. To this end, we introduce Variational GRPO (V-GRPO), a method that integrates ELBO-based surrogates with the Group Relative Policy Optimization (GRPO) algorithm, alongside a set of simple yet essential techniques. Our method is easy to implement, aligns with pretraining objectives, and avoids the limitations of MDP-based methods. V-GRPO achieves state-of-the-art performance in text-to-image synthesis, while delivering a 2times speedup over MixGRPO and a 3times speedup over DiffusionNFT.

V-GRPO: Reinforcement Learning Online zur Entrauschung generativer Modelle ist einfacher als Sie denken

V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think

Zusammenfassung

Support