Flow-GRPO: Training von Flow-Matching-Modellen durch Online Reinforcement Learning
Flow-GRPO: Training Flow Matching Models via Online RL
May 8, 2025
Autoren: Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang
cs.AI
Zusammenfassung
Wir präsentieren Flow-GRPO, die erste Methode, die Online-Reinforcement-Learning (RL) in Flow-Matching-Modelle integriert. Unser Ansatz verwendet zwei Schlüsselstrategien: (1) eine ODE-zu-SDE-Konvertierung, die eine deterministische gewöhnliche Differentialgleichung (ODE) in eine äquivalente stochastische Differentialgleichung (SDE) umwandelt, die die Randverteilung des ursprünglichen Modells zu allen Zeitpunkten abbildet und damit statistisches Sampling für die RL-Exploration ermöglicht; und (2) eine Denoising-Reduktionsstrategie, die die Trainings-Denoising-Schritte reduziert, während die ursprüngliche Anzahl der Inferenz-Zeitschritte beibehalten wird, was die Sampling-Effizienz erheblich verbessert, ohne die Leistung zu beeinträchtigen. Empirisch zeigt sich Flow-GRPO in mehreren Text-zu-Bild-Aufgaben als effektiv. Für komplexe Kompositionen generiert das RL-optimierte SD3.5 nahezu perfekte Objektanzahlen, räumliche Beziehungen und fein abgestufte Attribute, wodurch die GenEval-Genauigkeit von 63 % auf 95 % steigt. Bei der visuellen Textdarstellung verbessert sich die Genauigkeit von 59 % auf 92 %, was die Textgenerierung erheblich verbessert. Flow-GRPO erzielt auch deutliche Fortschritte in der Ausrichtung auf menschliche Präferenzen. Bemerkenswerterweise trat kaum oder gar kein Reward-Hacking auf, was bedeutet, dass die Belohnungen nicht auf Kosten der Bildqualität oder -vielfalt erhöht wurden und beide in unseren Experimenten stabil blieben.
English
We propose Flow-GRPO, the first method integrating online reinforcement
learning (RL) into flow matching models. Our approach uses two key strategies:
(1) an ODE-to-SDE conversion that transforms a deterministic Ordinary
Differential Equation (ODE) into an equivalent Stochastic Differential Equation
(SDE) that matches the original model's marginal distribution at all timesteps,
enabling statistical sampling for RL exploration; and (2) a Denoising Reduction
strategy that reduces training denoising steps while retaining the original
inference timestep number, significantly improving sampling efficiency without
performance degradation. Empirically, Flow-GRPO is effective across multiple
text-to-image tasks. For complex compositions, RL-tuned SD3.5 generates nearly
perfect object counts, spatial relations, and fine-grained attributes, boosting
GenEval accuracy from 63% to 95%. In visual text rendering, its accuracy
improves from 59% to 92%, significantly enhancing text generation.
Flow-GRPO also achieves substantial gains in human preference alignment.
Notably, little to no reward hacking occurred, meaning rewards did not increase
at the cost of image quality or diversity, and both remained stable in our
experiments.Summary
AI-Generated Summary