ChatPaper.aiChatPaper

Flow-GRPO: Het trainen van Flow Matching-modellen via online reinforcement learning

Flow-GRPO: Training Flow Matching Models via Online RL

May 8, 2025
Auteurs: Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang
cs.AI

Samenvatting

We stellen Flow-GRPO voor, de eerste methode die online reinforcement learning (RL) integreert in flow matching-modellen. Onze aanpak maakt gebruik van twee belangrijke strategieën: (1) een ODE-naar-SDE-conversie die een deterministische Gewone Differentiaalvergelijking (ODE) omzet in een equivalente Stochastische Differentiaalvergelijking (SDE) die de marginale verdeling van het oorspronkelijke model op alle tijdstappen behoudt, waardoor statistische steekproeven voor RL-exploratie mogelijk worden; en (2) een Denoising Reduction-strategie die het aantal denoising-stappen tijdens de training vermindert terwijl het oorspronkelijke aantal inferentie-tijdstappen behouden blijft, wat de steekproefefficiëntie aanzienlijk verbetert zonder prestatieverlies. Empirisch gezien is Flow-GRPO effectief bij meerdere tekst-naar-beeld-taken. Voor complexe composities genereert RL-afgestemde SD3.5 bijna perfecte objectaantallen, ruimtelijke relaties en fijnmazige attributen, waardoor de GenEval-nauwkeurigheid stijgt van 63% naar 95%. Bij visuele tekstweergave verbetert de nauwkeurigheid van 59% naar 92%, wat de tekstgeneratie aanzienlijk verbetert. Flow-GRPO behaalt ook aanzienlijke verbeteringen in de afstemming op menselijke voorkeuren. Opmerkelijk is dat er weinig tot geen sprake was van reward hacking, wat betekent dat beloningen niet toenamen ten koste van beeldkwaliteit of diversiteit, en beide bleven stabiel in onze experimenten.
English
We propose Flow-GRPO, the first method integrating online reinforcement learning (RL) into flow matching models. Our approach uses two key strategies: (1) an ODE-to-SDE conversion that transforms a deterministic Ordinary Differential Equation (ODE) into an equivalent Stochastic Differential Equation (SDE) that matches the original model's marginal distribution at all timesteps, enabling statistical sampling for RL exploration; and (2) a Denoising Reduction strategy that reduces training denoising steps while retaining the original inference timestep number, significantly improving sampling efficiency without performance degradation. Empirically, Flow-GRPO is effective across multiple text-to-image tasks. For complex compositions, RL-tuned SD3.5 generates nearly perfect object counts, spatial relations, and fine-grained attributes, boosting GenEval accuracy from 63% to 95%. In visual text rendering, its accuracy improves from 59% to 92%, significantly enhancing text generation. Flow-GRPO also achieves substantial gains in human preference alignment. Notably, little to no reward hacking occurred, meaning rewards did not increase at the cost of image quality or diversity, and both remained stable in our experiments.
PDF784May 9, 2025