ChatPaper.aiChatPaper

Flow-GRPO : Entraînement de modèles de correspondance de flux via l'apprentissage par renforcement en ligne

Flow-GRPO: Training Flow Matching Models via Online RL

May 8, 2025
Auteurs: Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang
cs.AI

Résumé

Nous proposons Flow-GRPO, la première méthode intégrant l'apprentissage par renforcement en ligne (RL) dans les modèles de correspondance de flux. Notre approche utilise deux stratégies clés : (1) une conversion ODE-to-SDE qui transforme une équation différentielle ordinaire (ODE) déterministe en une équation différentielle stochastique (SDE) équivalente, correspondant à la distribution marginale du modèle original à tous les pas de temps, permettant ainsi un échantillonnage statistique pour l'exploration en RL ; et (2) une stratégie de réduction de bruit qui diminue les étapes de débruitage pendant l'entraînement tout en conservant le nombre de pas de temps d'inférence original, améliorant significativement l'efficacité d'échantillonnage sans dégradation des performances. Empiriquement, Flow-GRPO s'avère efficace pour plusieurs tâches de génération d'images à partir de texte. Pour des compositions complexes, SD3.5 ajusté par RL génère des comptes d'objets, des relations spatiales et des attributs fins presque parfaits, augmentant la précision de GenEval de 63 % à 95 %. Dans le rendu de texte visuel, sa précision passe de 59 % à 92 %, améliorant considérablement la génération de texte. Flow-GRPO réalise également des gains substantiels en termes d'alignement avec les préférences humaines. Notamment, peu ou pas de détournement de récompense n'a été observé, ce qui signifie que les récompenses n'ont pas augmenté au détriment de la qualité ou de la diversité des images, et ces deux aspects sont restés stables dans nos expériences.
English
We propose Flow-GRPO, the first method integrating online reinforcement learning (RL) into flow matching models. Our approach uses two key strategies: (1) an ODE-to-SDE conversion that transforms a deterministic Ordinary Differential Equation (ODE) into an equivalent Stochastic Differential Equation (SDE) that matches the original model's marginal distribution at all timesteps, enabling statistical sampling for RL exploration; and (2) a Denoising Reduction strategy that reduces training denoising steps while retaining the original inference timestep number, significantly improving sampling efficiency without performance degradation. Empirically, Flow-GRPO is effective across multiple text-to-image tasks. For complex compositions, RL-tuned SD3.5 generates nearly perfect object counts, spatial relations, and fine-grained attributes, boosting GenEval accuracy from 63% to 95%. In visual text rendering, its accuracy improves from 59% to 92%, significantly enhancing text generation. Flow-GRPO also achieves substantial gains in human preference alignment. Notably, little to no reward hacking occurred, meaning rewards did not increase at the cost of image quality or diversity, and both remained stable in our experiments.

Summary

AI-Generated Summary

PDF362May 9, 2025