Flow-GRPO: Addestramento di Modelli di Flow Matching tramite RL Online
Flow-GRPO: Training Flow Matching Models via Online RL
May 8, 2025
Autori: Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang
cs.AI
Abstract
Proponiamo Flow-GRPO, il primo metodo che integra l'apprendimento per rinforzo online (RL) nei modelli di flusso di corrispondenza. Il nostro approccio utilizza due strategie chiave: (1) una conversione ODE-to-SDE che trasforma un'Equazione Differenziale Ordinaria (ODE) deterministica in un'Equazione Differenziale Stocastica (SDE) equivalente, che corrisponde alla distribuzione marginale del modello originale in tutti i passaggi temporali, abilitando il campionamento statistico per l'esplorazione RL; e (2) una strategia di Riduzione del Denoising che riduce i passaggi di denoising durante l'addestramento mantenendo invariato il numero di passaggi temporali durante l'inferenza, migliorando significativamente l'efficienza del campionamento senza compromettere le prestazioni. Empiricamente, Flow-GRPO si dimostra efficace in molteplici task di generazione da testo a immagine. Per composizioni complesse, SD3.5 ottimizzato con RL genera conteggi di oggetti, relazioni spaziali e attributi dettagliati quasi perfetti, aumentando l'accuratezza di GenEval dal 63% al 95%. Nel rendering di testo visivo, la sua accuratezza migliora dal 59% al 92%, migliorando significativamente la generazione di testo. Flow-GRPO ottiene anche sostanziali guadagni nell'allineamento alle preferenze umane. È importante notare che si è verificato poco o nessun reward hacking, il che significa che i reward non sono aumentati a scapito della qualità o della diversità delle immagini, e entrambi sono rimasti stabili nei nostri esperimenti.
English
We propose Flow-GRPO, the first method integrating online reinforcement
learning (RL) into flow matching models. Our approach uses two key strategies:
(1) an ODE-to-SDE conversion that transforms a deterministic Ordinary
Differential Equation (ODE) into an equivalent Stochastic Differential Equation
(SDE) that matches the original model's marginal distribution at all timesteps,
enabling statistical sampling for RL exploration; and (2) a Denoising Reduction
strategy that reduces training denoising steps while retaining the original
inference timestep number, significantly improving sampling efficiency without
performance degradation. Empirically, Flow-GRPO is effective across multiple
text-to-image tasks. For complex compositions, RL-tuned SD3.5 generates nearly
perfect object counts, spatial relations, and fine-grained attributes, boosting
GenEval accuracy from 63% to 95%. In visual text rendering, its accuracy
improves from 59% to 92%, significantly enhancing text generation.
Flow-GRPO also achieves substantial gains in human preference alignment.
Notably, little to no reward hacking occurred, meaning rewards did not increase
at the cost of image quality or diversity, and both remained stable in our
experiments.