Flow-DPPO: Divergentie Proximale Beleidsoptimalisatie voor Flow Matching Modellen

Samenvatting

Recent werk heeft aangetoond dat online reinforcement learning (RL) de kwaliteit en afstemming van flow matching-modellen voor beeld- en videogeneratie aanzienlijk kan verbeteren. Methoden zoals Flow-GRPO en CPS beschouwen het denoisingproces als een Markov-beslissingsproces en passen PPO-stijl ratio clipping toe om een trust region af te dwingen. Wij stellen echter dat ratio clipping structureel ongeschikt is voor flowmodellen: de kansverhouding tussen nieuwe en oude beleidsregels is een ruizige, enkelsteekproefschatting van de werkelijke beleidsdivergentie, wat leidt tot overmatige beperking in sommige delen van het traject en onvoldoende beperking in andere. Wij introduceren Flow-DPPO (Flow Divergence Proximal Policy Optimization), dat ratio clipping vervangt door een divergentie-proximale beperking. Een belangrijke observatie is dat het per-stap beleid in flowmodellen Gaussisch is, wat exacte en goedkope berekening van de KL-divergentie tussen oude en nieuwe beleidsregels mogelijk maakt. Flow-DPPO maakt gebruik van een asymmetrisch divergentiemasker dat gradiëntupdates alleen blokkeert wanneer ze tegelijkertijd van de trust region afwijken en de divergentiedrempel overschrijden. Experimenten tonen aan dat Flow-DPPO hogere beloningen behaalt met betere KL-proximale efficiëntie, catastrofaal vergeten vermindert, gebalanceerde multi-objectieve optimalisatie bevordert en stabiele multi-epoch training mogelijk maakt waar ratio clipping degradeert. Code en modellen zijn beschikbaar op https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO.

English

Recent work has demonstrated that online reinforcement learning (RL) can substantially improve the quality and alignment of flow matching models for image and video generation. Methods such as Flow-GRPO and CPS cast the denoising process as a Markov Decision Process and apply PPO-style ratio clipping to enforce a trust region. However, we argue that ratio clipping is structurally ill-suited for flow models: the probability ratio between new and old policies is a noisy, single-sample estimate of the true policy divergence, leading to over-constraining in some regions of the trajectory and under-constraining in others. We propose Flow-DPPO (Flow Divergence Proximal Policy Optimization), which replaces ratio clipping with a divergence proximal constraint. A key observation is that the per-step policy in flow models is Gaussian, enabling exact and cheap computation of the KL divergence between old and new policies. Flow-DPPO employs an asymmetric divergence mask that blocks gradient updates only when they simultaneously move away from the trusted region and violate the divergence threshold. Experiments show that Flow-DPPO achieves higher rewards with better KL-proximal efficiency, alleviates catastrophic forgetting, promotes balanced multi-objective optimization, and enables stable multi-epoch training where ratio clipping degrades. Code and models are available at https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO.