ChatPaper.aiChatPaper

Flow-GRPO: オンライン強化学習によるフローマッチングモデルのトレーニング

Flow-GRPO: Training Flow Matching Models via Online RL

May 8, 2025
著者: Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang
cs.AI

要旨

我々は、フローマッチングモデルにオンライン強化学習(RL)を統合した初の手法であるFlow-GRPOを提案する。本手法では、以下の2つの主要な戦略を採用している:(1) 決定論的な常微分方程式(ODE)を等価な確率微分方程式(SDE)に変換するODE-to-SDE変換。これにより、元のモデルの周辺分布を全てのタイムステップで一致させ、RL探索のための統計的サンプリングを可能にする。(2) デノイジングステップ数を削減しつつ、元の推論タイムステップ数を維持するDenoising Reduction戦略。これにより、性能を損なうことなくサンプリング効率を大幅に向上させる。実験的に、Flow-GRPOは複数のテキストから画像へのタスクにおいて有効であることが示された。複雑な構図において、RLで調整されたSD3.5は、オブジェクトの数、空間的関係、細かな属性をほぼ完璧に生成し、GenEvalの精度を63%から95%に向上させた。視覚的テキストレンダリングでは、精度が59%から92%に改善され、テキスト生成が大幅に向上した。Flow-GRPOはまた、人間の嗜好との整合性においても大幅な向上を達成した。特に、リワードハッキングはほとんど発生せず、報酬が画像品質や多様性を犠牲にして増加することはなく、両者は実験中に安定していた。
English
We propose Flow-GRPO, the first method integrating online reinforcement learning (RL) into flow matching models. Our approach uses two key strategies: (1) an ODE-to-SDE conversion that transforms a deterministic Ordinary Differential Equation (ODE) into an equivalent Stochastic Differential Equation (SDE) that matches the original model's marginal distribution at all timesteps, enabling statistical sampling for RL exploration; and (2) a Denoising Reduction strategy that reduces training denoising steps while retaining the original inference timestep number, significantly improving sampling efficiency without performance degradation. Empirically, Flow-GRPO is effective across multiple text-to-image tasks. For complex compositions, RL-tuned SD3.5 generates nearly perfect object counts, spatial relations, and fine-grained attributes, boosting GenEval accuracy from 63% to 95%. In visual text rendering, its accuracy improves from 59% to 92%, significantly enhancing text generation. Flow-GRPO also achieves substantial gains in human preference alignment. Notably, little to no reward hacking occurred, meaning rewards did not increase at the cost of image quality or diversity, and both remained stable in our experiments.

Summary

AI-Generated Summary

PDF362May 9, 2025