ChatPaper.aiChatPaper

Flow-GRPO: Treinamento de Modelos de Flow Matching via RL Online

Flow-GRPO: Training Flow Matching Models via Online RL

May 8, 2025
Autores: Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang
cs.AI

Resumo

Propomos o Flow-GRPO, o primeiro método que integra aprendizado por reforço online (RL) em modelos de correspondência de fluxo (flow matching). Nossa abordagem utiliza duas estratégias principais: (1) uma conversão de EDO para EDS que transforma uma Equação Diferencial Ordinária (EDO) determinística em uma Equação Diferencial Estocástica (EDS) equivalente, que corresponde à distribuição marginal do modelo original em todos os intervalos de tempo, permitindo amostragem estatística para exploração em RL; e (2) uma estratégia de Redução de Ruído que reduz as etapas de remoção de ruído durante o treinamento, mantendo o número original de intervalos de tempo na inferência, melhorando significativamente a eficiência de amostragem sem degradação de desempenho. Empiricamente, o Flow-GRPO é eficaz em diversas tarefas de texto para imagem. Para composições complexas, o SD3.5 ajustado por RL gera contagens de objetos, relações espaciais e atributos de granularidade fina quase perfeitos, aumentando a precisão do GenEval de 63% para 95%. Na renderização de texto visual, sua precisão melhora de 59% para 92%, aprimorando significativamente a geração de texto. O Flow-GRPO também alcança ganhos substanciais no alinhamento com preferências humanas. Notavelmente, houve pouco ou nenhum "reward hacking", o que significa que as recompensas não aumentaram em detrimento da qualidade ou diversidade das imagens, e ambas permaneceram estáveis em nossos experimentos.
English
We propose Flow-GRPO, the first method integrating online reinforcement learning (RL) into flow matching models. Our approach uses two key strategies: (1) an ODE-to-SDE conversion that transforms a deterministic Ordinary Differential Equation (ODE) into an equivalent Stochastic Differential Equation (SDE) that matches the original model's marginal distribution at all timesteps, enabling statistical sampling for RL exploration; and (2) a Denoising Reduction strategy that reduces training denoising steps while retaining the original inference timestep number, significantly improving sampling efficiency without performance degradation. Empirically, Flow-GRPO is effective across multiple text-to-image tasks. For complex compositions, RL-tuned SD3.5 generates nearly perfect object counts, spatial relations, and fine-grained attributes, boosting GenEval accuracy from 63% to 95%. In visual text rendering, its accuracy improves from 59% to 92%, significantly enhancing text generation. Flow-GRPO also achieves substantial gains in human preference alignment. Notably, little to no reward hacking occurred, meaning rewards did not increase at the cost of image quality or diversity, and both remained stable in our experiments.
PDF875February 7, 2026