V-GRPO: Обучение с подкреплением в реальном времени для шумоподавления генеративных моделей проще, чем кажется

Аннотация

Согласование денойзинговых генеративных моделей с человеческими предпочтениями или верифицируемыми функциями вознаграждения остается ключевой проблемой. Хотя обучение с подкреплением (RL) на основе политик градиента предлагает принципиальную схему дообучения, его прямое применение затруднено из-за невычислимой функции правдоподобия таких моделей. Предыдущие работы либо оптимизируют индуцированный марковский процесс принятия решений (MDP) на траекториях сэмплирования, что стабильно, но неэффективно, либо используют суррогаты правдоподобия на основе нижней оценки доказательства (ELBO) для диффузии, которые до сих пор показывали низкие результаты в визуальной генерации. Наше ключевое наблюдение заключается в том, что подход на основе ELBO, фактически, можно сделать как стабильным, так и эффективным. Показывается, что за счет снижения дисперсии суррогата и контроля шагов градиента этот подход может превзойти методы на основе MDP. С этой целью мы представляем Variational GRPO (V-GRPO) — метод, интегрирующий суррогаты на основе ELBO с алгоритмом Group Relative Policy Optimization (GRPO) вместе с набором простых, но важных приемов. Наш метод прост в реализации, согласован с целями предварительного обучения и избегает ограничений методов на основе MDP. V-GRPO демонстрирует наилучшие результаты в синтезе изображений по тексту, обеспечивая при этом двукратное ускорение по сравнению с MixGRPO и трехкратное — по сравнению с DiffusionNFT.

English

Aligning denoising generative models with human preferences or verifiable rewards remains a key challenge. While policy-gradient online reinforcement learning (RL) offers a principled post-training framework, its direct application is hindered by the intractable likelihoods of these models. Prior work therefore either optimizes an induced Markov decision process (MDP) over sampling trajectories, which is stable but inefficient, or uses likelihood surrogates based on the diffusion evidence lower bound (ELBO), which have so far underperformed on visual generation. Our key insight is that the ELBO-based approach can, in fact, be made both stable and efficient. By reducing surrogate variance and controlling gradient steps, we show that this approach can beat MDP-based methods. To this end, we introduce Variational GRPO (V-GRPO), a method that integrates ELBO-based surrogates with the Group Relative Policy Optimization (GRPO) algorithm, alongside a set of simple yet essential techniques. Our method is easy to implement, aligns with pretraining objectives, and avoids the limitations of MDP-based methods. V-GRPO achieves state-of-the-art performance in text-to-image synthesis, while delivering a 2times speedup over MixGRPO and a 3times speedup over DiffusionNFT.

V-GRPO: Обучение с подкреплением в реальном времени для шумоподавления генеративных моделей проще, чем кажется

V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think

Аннотация

Support