V-GRPO: Aprendizagem por Reforço Online para Modelos Generativos de Remoção de Ruído É Mais Fácil do que Você Imagina

Resumo

O alinhamento de modelos generativos de remoção de ruído com preferências humanas ou recompensas verificáveis continua a ser um desafio fundamental. Embora o aprendizado por reforço (RL) online baseado em gradiente de política ofereça uma estrutura principista pós-treinamento, sua aplicação direta é dificultada pelas likelihoods intratáveis desses modelos. Trabalhos anteriores, portanto, ou otimizam um Processo de Decisão Markoviana (MDP) induzido sobre trajetórias de amostragem, que é estável mas ineficiente, ou usam *surrogates* de *likelihood* baseados no Limite Inferior da Evidência (ELBO) de difusão, que até agora tiveram desempenho inferior na geração visual. Nossa principal percepção é que a abordagem baseada no ELBO pode, de fato, ser tornada estável e eficiente. Ao reduzir a variância do *surrogate* e controlar os passos do gradiente, mostramos que essa abordagem pode superar os métodos baseados em MDP. Para esse fim, introduzimos o V-GRPO (Variational GRPO), um método que integra *surrogates* baseados no ELBO com o algoritmo GRPO (Group Relative Policy Optimization), juntamente com um conjunto de técnicas simples mas essenciais. Nosso método é fácil de implementar, alinha-se com os objetivos de pré-treinamento e evita as limitações dos métodos baseados em MDP. O V-GRPO atinge um desempenho de ponta na síntese de texto para imagem, enquanto oferece uma aceleração de 2x em relação ao MixGRPO e de 3x em relação ao DiffusionNFT.

English

Aligning denoising generative models with human preferences or verifiable rewards remains a key challenge. While policy-gradient online reinforcement learning (RL) offers a principled post-training framework, its direct application is hindered by the intractable likelihoods of these models. Prior work therefore either optimizes an induced Markov decision process (MDP) over sampling trajectories, which is stable but inefficient, or uses likelihood surrogates based on the diffusion evidence lower bound (ELBO), which have so far underperformed on visual generation. Our key insight is that the ELBO-based approach can, in fact, be made both stable and efficient. By reducing surrogate variance and controlling gradient steps, we show that this approach can beat MDP-based methods. To this end, we introduce Variational GRPO (V-GRPO), a method that integrates ELBO-based surrogates with the Group Relative Policy Optimization (GRPO) algorithm, alongside a set of simple yet essential techniques. Our method is easy to implement, aligns with pretraining objectives, and avoids the limitations of MDP-based methods. V-GRPO achieves state-of-the-art performance in text-to-image synthesis, while delivering a 2times speedup over MixGRPO and a 3times speedup over DiffusionNFT.

V-GRPO: Aprendizagem por Reforço Online para Modelos Generativos de Remoção de Ruído É Mais Fácil do que Você Imagina

V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think

Resumo

Support