Flow-DPPO: Дивергентная проксимальная оптимизация политики для моделей сопоставления потоков

Аннотация

Недавние работы показали, что онлайн-обучение с подкреплением (RL) может существенно улучшить качество и согласованность моделей потокового согласования (flow matching) для генерации изображений и видео. Методы, такие как Flow-GRPO и CPS, представляют процесс шумоподавления как марковский процесс принятия решений и применяют клиппирование отношения в стиле PPO для соблюдения доверительной области. Однако мы утверждаем, что клиппирование отношения структурно не подходит для потоковых моделей: отношение вероятностей между новой и старой политиками представляет собой зашумленную оценку истинного расхождения политик на основе одного образца, что приводит к излишним ограничениям в одних областях траектории и недостаточным — в других. Мы предлагаем Flow-DPPO (Flow Divergence Proximal Policy Optimization), который заменяет клиппирование отношения проксимальным ограничением расхождения. Ключевое наблюдение заключается в том, что пошаговая политика в потоковых моделях является гауссовой, что позволяет точно и эффективно вычислять KL-дивергенцию между старой и новой политиками. Flow-DPPO использует асимметричную маску расхождения, которая блокирует градиентные обновления только в том случае, когда они одновременно выходят за пределы доверительной области и нарушают порог расхождения. Эксперименты показывают, что Flow-DPPO достигает более высоких вознаграждений с лучшей проксимальной эффективностью по KL-дивергенции, уменьшает катастрофическое забывание, способствует сбалансированной многокритериальной оптимизации и обеспечивает стабильное многопериодное обучение, при котором клиппирование отношения ухудшается. Код и модели доступны по адресу https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO.

English

Recent work has demonstrated that online reinforcement learning (RL) can substantially improve the quality and alignment of flow matching models for image and video generation. Methods such as Flow-GRPO and CPS cast the denoising process as a Markov Decision Process and apply PPO-style ratio clipping to enforce a trust region. However, we argue that ratio clipping is structurally ill-suited for flow models: the probability ratio between new and old policies is a noisy, single-sample estimate of the true policy divergence, leading to over-constraining in some regions of the trajectory and under-constraining in others. We propose Flow-DPPO (Flow Divergence Proximal Policy Optimization), which replaces ratio clipping with a divergence proximal constraint. A key observation is that the per-step policy in flow models is Gaussian, enabling exact and cheap computation of the KL divergence between old and new policies. Flow-DPPO employs an asymmetric divergence mask that blocks gradient updates only when they simultaneously move away from the trusted region and violate the divergence threshold. Experiments show that Flow-DPPO achieves higher rewards with better KL-proximal efficiency, alleviates catastrophic forgetting, promotes balanced multi-objective optimization, and enables stable multi-epoch training where ratio clipping degrades. Code and models are available at https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO.