DiffusionOPD: Een uniform perspectief van on-policy distillatie in diffusiemodellen

Samenvatting

Reinforcement learning is uitgegroeid tot een krachtig hulpmiddel voor het verbeteren van diffusie-gebaseerde tekst-naar-beeld modellen, maar bestaande methoden zijn grotendeels beperkt tot optimalisatie van enkelvoudige taken. Het uitbreiden van RL naar meerdere taken is uitdagend: gezamenlijke optimalisatie lijdt onder kruistaakinterferentie en onbalans, terwijl cascade RL omslachtig is en vatbaar voor catastrofaal vergeten. Wij stellen DiffusionOPD voor, een nieuw multi-taak trainingsparadigma voor diffusiemodellen gebaseerd op Online Beleidsdestillatie (OPD). DiffusionOPD traint eerst taakspecifieke docenten onafhankelijk, en distilleert vervolgens hun mogelijkheden in een verenigde student langs de eigen roll-out-trajecten van de student. Dit ontkoppelt enkelvoudige-taakverkenning van multi-taakintegratie en vermijdt de optimalisatielast van het vanaf nul gezamenlijk oplossen van alle taken. Theoretisch tillen we het OPD-raamwerk van discrete tokens naar continue-toestand Markov-processen, waarbij we een gesloten-vorm per-stap KL-doelstelling afleiden die zowel stochastische SDE als deterministische ODE-verfijning verenigt via gemiddelde-matching. We tonen formeel en empirisch aan dat deze analytische gradiënt lagere variantie en betere algemeenheid biedt in vergelijking met conventionele PPO-achtige beleidsgradiënten. Uitgebreide experimenten tonen aan dat DiffusionOPD consequent zowel multi-beloning RL als cascade RL-baselines overtreft in trainingsefficiëntie en uiteindelijke prestaties, terwijl het state-of-the-art resultaten behaalt op alle geëvalueerde benchmarks.

English

Reinforcement learning has emerged as a powerful tool for improving diffusion-based text-to-image models, but existing methods are largely limited to single-task optimization. Extending RL to multiple tasks is challenging: joint optimization suffers from cross-task interference and imbalance, while cascade RL is cumbersome and prone to catastrophic forgetting. We propose DiffusionOPD, a new multi-task training paradigm for diffusion models based on Online Policy Distillation (OPD). DiffusionOPD first trains task-specific teachers independently, then distills their capabilities into a unified student along the student own rollout trajectories. This decouples single-task exploration from multi-task integration and avoids the optimization burden of solving all tasks jointly from scratch. Theoretically, we lift the OPD framework from discrete tokens to continuous-state Markov processes, deriving a closed-form per-step KL objective that unifies both stochastic SDE and deterministic ODE refinement via mean-matching. We formally and empirically demonstrate that this analytic gradient provides lower variance and better generality compared to conventional PPO-style policy gradients. Extensive experiments show that DiffusionOPD consistently surpasses both multi-reward RL and cascade RL baselines in training efficiency and final performance, while achieving state-of-the-art results on all evaluated benchmarks.