Flow-DPPO: フローマッチングモデルのための発散近位政策最適化
Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models
June 9, 2026
著者: Bowen Ping, Xiangxin Zhou, Penghui Qi, Minnan Luo, Liefeng Bo, Tianyu Pang
cs.AI
要旨
近年の研究により、オンライン強化学習(RL)は画像・動画生成におけるフローマッチングモデルの品質とアライメントを大幅に向上できることが示されている。Flow-GRPOやCPSなどの手法は、ノイズ除去プロセスをマルコフ決定過程として捉え、PPOスタイルの比率クリッピングを適用して信頼領域を強制する。しかし、我々は比率クリッピングがフローモデルに構造的に不適切であると主張する。新旧方策間の確率比は、真の方策乖離に対するノイズの多い単一サンプル推定値であり、軌道の一部の領域では過剰に制約し、他の領域では制約不足を引き起こす。そこで我々は、比率クリッピングを乖離近接制約に置き換えたFlow-DPPO(Flow Divergence Proximal Policy Optimization)を提案する。重要な観察として、フローモデルにおける各ステップの方策はガウス分布に従うため、新旧方策間のKLダイバージェンスを正確かつ低コストで計算できる。Flow-DPPOは非対称な乖離マスクを採用し、更新が信頼領域から同時に逸脱し、かつ乖離しきい値を超える場合にのみ勾配更新をブロックする。実験により、Flow-DPPOはより高い報酬と優れたKL近接効率を達成し、破滅的忘却を軽減し、バランスの取れた多目的最適化を促進し、比率クリッピングが劣化する場合でも安定したマルチエポック学習を可能にすることを示す。コードとモデルは https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO で入手可能である。
English
Recent work has demonstrated that online reinforcement learning (RL) can substantially improve the quality and alignment of flow matching models for image and video generation. Methods such as Flow-GRPO and CPS cast the denoising process as a Markov Decision Process and apply PPO-style ratio clipping to enforce a trust region. However, we argue that ratio clipping is structurally ill-suited for flow models: the probability ratio between new and old policies is a noisy, single-sample estimate of the true policy divergence, leading to over-constraining in some regions of the trajectory and under-constraining in others. We propose Flow-DPPO (Flow Divergence Proximal Policy Optimization), which replaces ratio clipping with a divergence proximal constraint. A key observation is that the per-step policy in flow models is Gaussian, enabling exact and cheap computation of the KL divergence between old and new policies. Flow-DPPO employs an asymmetric divergence mask that blocks gradient updates only when they simultaneously move away from the trusted region and violate the divergence threshold. Experiments show that Flow-DPPO achieves higher rewards with better KL-proximal efficiency, alleviates catastrophic forgetting, promotes balanced multi-objective optimization, and enables stable multi-epoch training where ratio clipping degrades. Code and models are available at https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO.