Flow-GRPO: Entrenamiento de Modelos de Flow Matching mediante Aprendizaje por Refuerzo en Línea
Flow-GRPO: Training Flow Matching Models via Online RL
May 8, 2025
Autores: Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang
cs.AI
Resumen
Proponemos Flow-GRPO, el primer método que integra el aprendizaje por refuerzo (RL) en línea en modelos de emparejamiento de flujos. Nuestro enfoque utiliza dos estrategias clave: (1) una conversión de ODE a SDE que transforma una Ecuación Diferencial Ordinaria (ODE) determinista en una Ecuación Diferencial Estocástica (SDE) equivalente que coincide con la distribución marginal del modelo original en todos los pasos de tiempo, permitiendo el muestreo estadístico para la exploración de RL; y (2) una estrategia de Reducción de Ruido que reduce los pasos de eliminación de ruido durante el entrenamiento mientras mantiene el número original de pasos de tiempo en la inferencia, mejorando significativamente la eficiencia del muestreo sin degradación del rendimiento. Empíricamente, Flow-GRPO es efectivo en múltiples tareas de texto a imagen. Para composiciones complejas, SD3.5 ajustado con RL genera recuentos de objetos, relaciones espaciales y atributos detallados casi perfectos, aumentando la precisión de GenEval del 63% al 95%. En la representación visual de texto, su precisión mejora del 59% al 92%, mejorando significativamente la generación de texto. Flow-GRPO también logra avances sustanciales en la alineación con las preferencias humanas. Notablemente, hubo poco o ningún "hacking de recompensas", lo que significa que las recompensas no aumentaron a costa de la calidad o diversidad de las imágenes, y ambas se mantuvieron estables en nuestros experimentos.
English
We propose Flow-GRPO, the first method integrating online reinforcement
learning (RL) into flow matching models. Our approach uses two key strategies:
(1) an ODE-to-SDE conversion that transforms a deterministic Ordinary
Differential Equation (ODE) into an equivalent Stochastic Differential Equation
(SDE) that matches the original model's marginal distribution at all timesteps,
enabling statistical sampling for RL exploration; and (2) a Denoising Reduction
strategy that reduces training denoising steps while retaining the original
inference timestep number, significantly improving sampling efficiency without
performance degradation. Empirically, Flow-GRPO is effective across multiple
text-to-image tasks. For complex compositions, RL-tuned SD3.5 generates nearly
perfect object counts, spatial relations, and fine-grained attributes, boosting
GenEval accuracy from 63% to 95%. In visual text rendering, its accuracy
improves from 59% to 92%, significantly enhancing text generation.
Flow-GRPO also achieves substantial gains in human preference alignment.
Notably, little to no reward hacking occurred, meaning rewards did not increase
at the cost of image quality or diversity, and both remained stable in our
experiments.Summary
AI-Generated Summary