Flow-DPPO : Optimisation de Politique Proximale par Divergence pour les Modèles de Flow Matching

Résumé

Des travaux récents ont démontré que l’apprentissage par renforcement en ligne (RL) peut améliorer significativement la qualité et l’alignement des modèles d’appariement de flux pour la génération d’images et de vidéos. Des méthodes telles que Flow-GRPO et CPS modélisent le processus de débruitage comme un processus de décision markovien et appliquent un écrêtage de ratio de type PPO pour imposer une région de confiance. Cependant, nous soutenons que l’écrêtage de ratio est structurellement inadéquat pour les modèles de flux : le rapport de probabilité entre les anciennes et les nouvelles politiques est une estimation bruitée, basée sur un seul échantillon, de la véritable divergence entre politiques, ce qui conduit à une contrainte excessive dans certaines régions de la trajectoire et à une contrainte insuffisante dans d’autres. Nous proposons Flow-DPPO (Flow Divergence Proximal Policy Optimization), qui remplace l’écrêtage de ratio par une contrainte proximale de divergence. Une observation clé est que la politique par étape dans les modèles de flux est gaussienne, ce qui permet un calcul exact et peu coûteux de la divergence KL entre les anciennes et les nouvelles politiques. Flow-DPPO utilise un masque de divergence asymétrique qui bloque les mises à jour de gradient uniquement lorsqu’elles s’éloignent simultanément de la région de confiance et violent le seuil de divergence. Les expériences montrent que Flow-DPPO atteint des récompenses plus élevées avec une meilleure efficacité proximale par rapport à la KL, atténue l’oubli catastrophique, favorise une optimisation multi-objectifs équilibrée et permet un entraînement stable sur plusieurs époques là où l’écrêtage de ratio se dégrade. Le code et les modèles sont disponibles à l’adresse https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO.

English

Recent work has demonstrated that online reinforcement learning (RL) can substantially improve the quality and alignment of flow matching models for image and video generation. Methods such as Flow-GRPO and CPS cast the denoising process as a Markov Decision Process and apply PPO-style ratio clipping to enforce a trust region. However, we argue that ratio clipping is structurally ill-suited for flow models: the probability ratio between new and old policies is a noisy, single-sample estimate of the true policy divergence, leading to over-constraining in some regions of the trajectory and under-constraining in others. We propose Flow-DPPO (Flow Divergence Proximal Policy Optimization), which replaces ratio clipping with a divergence proximal constraint. A key observation is that the per-step policy in flow models is Gaussian, enabling exact and cheap computation of the KL divergence between old and new policies. Flow-DPPO employs an asymmetric divergence mask that blocks gradient updates only when they simultaneously move away from the trusted region and violate the divergence threshold. Experiments show that Flow-DPPO achieves higher rewards with better KL-proximal efficiency, alleviates catastrophic forgetting, promotes balanced multi-objective optimization, and enables stable multi-epoch training where ratio clipping degrades. Code and models are available at https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO.