V-GRPO: L'Apprendimento per Rinforzo Online per la Denoising dei Modelli Generativi è Più Semplice di Quanto Pensi

Abstract

L'allineamento dei modelli generativi di denoising con le preferenze umane o con ricompense verificabili rimane una sfida chiave. Sebbene l'apprendimento per rinforzo (RL) online con gradienti delle politiche offra un framework principiato post-addestramento, la sua applicazione diretta è ostacolata dalle likelihood intrattabili di questi modelli. I lavori precedenti hanno quindi optato per ottimizzare un processo decisionale di Markov (MDP) indotto sulle traiettorie di campionamento, che è stabile ma inefficiente, o per utilizzare surrogati della likelihood basati sul lower bound dell'evidenza (ELBO) di diffusione, che finora hanno ottenuto prestazioni inferiori nella generazione visiva. La nostra intuizione chiave è che l'approccio basato sull'ELBO possa, in realtà, essere reso sia stabile che efficiente. Riducendo la varianza del surrogato e controllando i passi del gradiente, dimostriamo che questo approccio può superare i metodi basati su MDP. A tal fine, introduciamo il Variational GRPO (V-GRPO), un metodo che integra i surrogati basati sull'ELBO con l'algoritmo di ottimizzazione relativa di gruppo delle politiche (GRPO), insieme a una serie di tecniche semplici ma essenziali. Il nostro metodo è facile da implementare, si allinea con gli obiettivi di pre-addestramento ed evita le limitazioni dei metodi basati su MDP. V-GRPO raggiunge prestazioni all'avanguardia nella sintesi testo-immagine, garantendo un aumento di velocità di 2 volte rispetto a MixGRPO e di 3 volte rispetto a DiffusionNFT.

English

Aligning denoising generative models with human preferences or verifiable rewards remains a key challenge. While policy-gradient online reinforcement learning (RL) offers a principled post-training framework, its direct application is hindered by the intractable likelihoods of these models. Prior work therefore either optimizes an induced Markov decision process (MDP) over sampling trajectories, which is stable but inefficient, or uses likelihood surrogates based on the diffusion evidence lower bound (ELBO), which have so far underperformed on visual generation. Our key insight is that the ELBO-based approach can, in fact, be made both stable and efficient. By reducing surrogate variance and controlling gradient steps, we show that this approach can beat MDP-based methods. To this end, we introduce Variational GRPO (V-GRPO), a method that integrates ELBO-based surrogates with the Group Relative Policy Optimization (GRPO) algorithm, alongside a set of simple yet essential techniques. Our method is easy to implement, aligns with pretraining objectives, and avoids the limitations of MDP-based methods. V-GRPO achieves state-of-the-art performance in text-to-image synthesis, while delivering a 2times speedup over MixGRPO and a 3times speedup over DiffusionNFT.

V-GRPO: L'Apprendimento per Rinforzo Online per la Denoising dei Modelli Generativi è Più Semplice di Quanto Pensi

V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think

Abstract

Support