Flow-DPPO: Otimização de Política Proximal por Divergência para Modelos de Flow Matching

Resumo

Trabalhos recentes demonstraram que o aprendizado por reforço online (RL) pode melhorar substancialmente a qualidade e o alinhamento de modelos de correspondência de fluxo para geração de imagens e vídeos. Métodos como Flow-GRPO e CPS modelam o processo de remoção de ruído como um Processo de Decisão de Markov e aplicam o recorte de razão estilo PPO para impor uma região de confiança. No entanto, argumentamos que o recorte de razão é estruturalmente inadequado para modelos de fluxo: a razão de probabilidade entre as políticas nova e antiga é uma estimativa ruidosa de amostra única da verdadeira divergência de política, levando a uma restrição excessiva em algumas regiões da trajetória e a uma restrição insuficiente em outras. Propomos o Flow-DPPO (Flow Divergence Proximal Policy Optimization), que substitui o recorte de razão por uma restrição proximal de divergência. Uma observação chave é que a política por etapa em modelos de fluxo é Gaussiana, permitindo o cálculo exato e barato da divergência KL entre as políticas antiga e nova. O Flow-DPPO emprega uma máscara de divergência assimétrica que bloqueia atualizações de gradiente apenas quando elas simultaneamente se afastam da região de confiança e violam o limiar de divergência. Experimentos mostram que o Flow-DPPO alcança recompensas mais altas com melhor eficiência proximal KL, alivia o esquecimento catastrófico, promove otimização multiobjetivo equilibrada e possibilita treinamento multi-época estável onde o recorte de razão se degrada. O código e os modelos estão disponíveis em https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO.

English

Recent work has demonstrated that online reinforcement learning (RL) can substantially improve the quality and alignment of flow matching models for image and video generation. Methods such as Flow-GRPO and CPS cast the denoising process as a Markov Decision Process and apply PPO-style ratio clipping to enforce a trust region. However, we argue that ratio clipping is structurally ill-suited for flow models: the probability ratio between new and old policies is a noisy, single-sample estimate of the true policy divergence, leading to over-constraining in some regions of the trajectory and under-constraining in others. We propose Flow-DPPO (Flow Divergence Proximal Policy Optimization), which replaces ratio clipping with a divergence proximal constraint. A key observation is that the per-step policy in flow models is Gaussian, enabling exact and cheap computation of the KL divergence between old and new policies. Flow-DPPO employs an asymmetric divergence mask that blocks gradient updates only when they simultaneously move away from the trusted region and violate the divergence threshold. Experiments show that Flow-DPPO achieves higher rewards with better KL-proximal efficiency, alleviates catastrophic forgetting, promotes balanced multi-objective optimization, and enables stable multi-epoch training where ratio clipping degrades. Code and models are available at https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO.