Flow-DPPO: Optimización de Política Proximal con Divergencia para Modelos de Emparejamiento de Flujo

Resumen

Trabajos recientes han demostrado que el aprendizaje por refuerzo (RL) online puede mejorar sustancialmente la calidad y la alineación de los modelos de matching de flujo para la generación de imágenes y videos. Métodos como Flow-GRPO y CPS modelan el proceso de eliminación de ruido como un Proceso de Decisión de Markov y aplican recorte de ratios al estilo PPO para imponer una región de confianza. Sin embargo, sostenemos que el recorte de ratios es estructuralmente inadecuado para los modelos de flujo: la relación de probabilidad entre las políticas nueva y antigua es una estimación ruidosa de una sola muestra de la verdadera divergencia de políticas, lo que conduce a una restricción excesiva en algunas regiones de la trayectoria y a una restricción insuficiente en otras. Proponemos Flow-DPPO (Optimización de Política Proximal por Divergencia de Flujo), que reemplaza el recorte de ratios con una restricción proximal de divergencia. Una observación clave es que la política por paso en los modelos de flujo es gaussiana, lo que permite calcular de forma exacta y eficiente la divergencia KL entre las políticas antigua y nueva. Flow-DPPO emplea una máscara de divergencia asimétrica que bloquea las actualizaciones de gradiente solo cuando estas se alejan simultáneamente de la región de confianza y violan el umbral de divergencia. Los experimentos muestran que Flow-DPPO logra recompensas más altas con una mejor eficiencia proximal-KL, alivia el olvido catastrófico, promueve una optimización multiobjetivo balanceada y permite un entrenamiento estable en múltiples épocas donde el recorte de ratios se degrada. El código y los modelos están disponibles en https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO.

English

Recent work has demonstrated that online reinforcement learning (RL) can substantially improve the quality and alignment of flow matching models for image and video generation. Methods such as Flow-GRPO and CPS cast the denoising process as a Markov Decision Process and apply PPO-style ratio clipping to enforce a trust region. However, we argue that ratio clipping is structurally ill-suited for flow models: the probability ratio between new and old policies is a noisy, single-sample estimate of the true policy divergence, leading to over-constraining in some regions of the trajectory and under-constraining in others. We propose Flow-DPPO (Flow Divergence Proximal Policy Optimization), which replaces ratio clipping with a divergence proximal constraint. A key observation is that the per-step policy in flow models is Gaussian, enabling exact and cheap computation of the KL divergence between old and new policies. Flow-DPPO employs an asymmetric divergence mask that blocks gradient updates only when they simultaneously move away from the trusted region and violate the divergence threshold. Experiments show that Flow-DPPO achieves higher rewards with better KL-proximal efficiency, alleviates catastrophic forgetting, promotes balanced multi-objective optimization, and enables stable multi-epoch training where ratio clipping degrades. Code and models are available at https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO.