DiffusionOPD: Een uniform perspectief van on-policy distillatie in diffusiemodellen
DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models
May 14, 2026
Auteurs: Quanhao Li, Junqiu Yu, Kaixun Jiang, Yujie Wei, Zhen Xing, Pandeng Li, Ruihang Chu, Shiwei Zhang, Yu Liu, Zuxuan Wu
cs.AI
Samenvatting
Reinforcement learning is uitgegroeid tot een krachtig hulpmiddel voor het verbeteren van diffusie-gebaseerde tekst-naar-beeld modellen, maar bestaande methoden zijn grotendeels beperkt tot optimalisatie van enkelvoudige taken. Het uitbreiden van RL naar meerdere taken is uitdagend: gezamenlijke optimalisatie lijdt onder kruistaakinterferentie en onbalans, terwijl cascade RL omslachtig is en vatbaar voor catastrofaal vergeten. Wij stellen DiffusionOPD voor, een nieuw multi-taak trainingsparadigma voor diffusiemodellen gebaseerd op Online Beleidsdestillatie (OPD). DiffusionOPD traint eerst taakspecifieke docenten onafhankelijk, en distilleert vervolgens hun mogelijkheden in een verenigde student langs de eigen roll-out-trajecten van de student. Dit ontkoppelt enkelvoudige-taakverkenning van multi-taakintegratie en vermijdt de optimalisatielast van het vanaf nul gezamenlijk oplossen van alle taken. Theoretisch tillen we het OPD-raamwerk van discrete tokens naar continue-toestand Markov-processen, waarbij we een gesloten-vorm per-stap KL-doelstelling afleiden die zowel stochastische SDE als deterministische ODE-verfijning verenigt via gemiddelde-matching. We tonen formeel en empirisch aan dat deze analytische gradiënt lagere variantie en betere algemeenheid biedt in vergelijking met conventionele PPO-achtige beleidsgradiënten. Uitgebreide experimenten tonen aan dat DiffusionOPD consequent zowel multi-beloning RL als cascade RL-baselines overtreft in trainingsefficiëntie en uiteindelijke prestaties, terwijl het state-of-the-art resultaten behaalt op alle geëvalueerde benchmarks.
English
Reinforcement learning has emerged as a powerful tool for improving diffusion-based text-to-image models, but existing methods are largely limited to single-task optimization. Extending RL to multiple tasks is challenging: joint optimization suffers from cross-task interference and imbalance, while cascade RL is cumbersome and prone to catastrophic forgetting. We propose DiffusionOPD, a new multi-task training paradigm for diffusion models based on Online Policy Distillation (OPD). DiffusionOPD first trains task-specific teachers independently, then distills their capabilities into a unified student along the student own rollout trajectories. This decouples single-task exploration from multi-task integration and avoids the optimization burden of solving all tasks jointly from scratch. Theoretically, we lift the OPD framework from discrete tokens to continuous-state Markov processes, deriving a closed-form per-step KL objective that unifies both stochastic SDE and deterministic ODE refinement via mean-matching. We formally and empirically demonstrate that this analytic gradient provides lower variance and better generality compared to conventional PPO-style policy gradients. Extensive experiments show that DiffusionOPD consistently surpasses both multi-reward RL and cascade RL baselines in training efficiency and final performance, while achieving state-of-the-art results on all evaluated benchmarks.