Flow-GRPO : Entraînement de modèles de correspondance de flux via l'apprentissage par renforcement en ligne
Flow-GRPO: Training Flow Matching Models via Online RL
May 8, 2025
Auteurs: Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang
cs.AI
Résumé
Nous proposons Flow-GRPO, la première méthode intégrant l'apprentissage par renforcement en ligne (RL) dans les modèles de correspondance de flux. Notre approche utilise deux stratégies clés : (1) une conversion ODE-to-SDE qui transforme une équation différentielle ordinaire (ODE) déterministe en une équation différentielle stochastique (SDE) équivalente, correspondant à la distribution marginale du modèle original à tous les pas de temps, permettant ainsi un échantillonnage statistique pour l'exploration en RL ; et (2) une stratégie de réduction de bruit qui diminue les étapes de débruitage pendant l'entraînement tout en conservant le nombre de pas de temps d'inférence original, améliorant significativement l'efficacité d'échantillonnage sans dégradation des performances. Empiriquement, Flow-GRPO s'avère efficace pour plusieurs tâches de génération d'images à partir de texte. Pour des compositions complexes, SD3.5 ajusté par RL génère des comptes d'objets, des relations spatiales et des attributs fins presque parfaits, augmentant la précision de GenEval de 63 % à 95 %. Dans le rendu de texte visuel, sa précision passe de 59 % à 92 %, améliorant considérablement la génération de texte. Flow-GRPO réalise également des gains substantiels en termes d'alignement avec les préférences humaines. Notamment, peu ou pas de détournement de récompense n'a été observé, ce qui signifie que les récompenses n'ont pas augmenté au détriment de la qualité ou de la diversité des images, et ces deux aspects sont restés stables dans nos expériences.
English
We propose Flow-GRPO, the first method integrating online reinforcement
learning (RL) into flow matching models. Our approach uses two key strategies:
(1) an ODE-to-SDE conversion that transforms a deterministic Ordinary
Differential Equation (ODE) into an equivalent Stochastic Differential Equation
(SDE) that matches the original model's marginal distribution at all timesteps,
enabling statistical sampling for RL exploration; and (2) a Denoising Reduction
strategy that reduces training denoising steps while retaining the original
inference timestep number, significantly improving sampling efficiency without
performance degradation. Empirically, Flow-GRPO is effective across multiple
text-to-image tasks. For complex compositions, RL-tuned SD3.5 generates nearly
perfect object counts, spatial relations, and fine-grained attributes, boosting
GenEval accuracy from 63% to 95%. In visual text rendering, its accuracy
improves from 59% to 92%, significantly enhancing text generation.
Flow-GRPO also achieves substantial gains in human preference alignment.
Notably, little to no reward hacking occurred, meaning rewards did not increase
at the cost of image quality or diversity, and both remained stable in our
experiments.Summary
AI-Generated Summary