DiffusionOPD: Eine einheitliche Perspektive der On-Policy-Distillation in Diffusionsmodellen

Zusammenfassung

Verstärkungslernen hat sich als leistungsstarkes Werkzeug zur Verbesserung diffusionsbasierter Text-zu-Bild-Modelle erwiesen, jedoch sind bestehende Methoden weitgehend auf die Optimierung einzelner Aufgaben beschränkt. Die Erweiterung des Verstärkungslernens auf mehrere Aufgaben ist herausfordernd: Gemeinsame Optimierung leidet unter aufgabenübergreifender Interferenz und Ungleichgewicht, während Kaskaden-RL umständlich und anfällig für katastrophales Vergessen ist. Wir schlagen DiffusionOPD vor, ein neues Mehraufgaben-Trainingsparadigma für Diffusionsmodelle, das auf Online Policy Distillation (OPD) basiert. DiffusionOPD trainiert zunächst aufgabenspezifische Lehrer unabhängig voneinander und destilliert deren Fähigkeiten in einen einheitlichen Schüler entlang der eigenen Ausrolltrajektorien des Schülers. Dies entkoppelt die Einzelaufgaben-Erkundung von der Mehraufgaben-Integration und vermeidet den Optimierungsaufwand, alle Aufgaben von Grund auf gemeinsam zu lösen. Theoretisch heben wir das OPD-Framework von diskreten Token auf kontinuierliche Markov-Prozesse an und leiten eine geschlossene KL-Zielfunktion pro Schritt her, die sowohl die stochastische SDE- als auch die deterministische ODE-Verfeinerung durch Mittelwertanpassung vereinheitlicht. Wir zeigen formal und empirisch, dass dieser analytische Gradient im Vergleich zu herkömmlichen PPO-artigen Policy-Gradienten eine geringere Varianz und eine bessere Allgemeingültigkeit aufweist. Umfangreiche Experimente belegen, dass DiffusionOPD sowohl im Hinblick auf die Trainingseffizienz als auch auf die endgültige Leistung durchweg sowohl Mehraufgaben-RL- als auch Kaskaden-RL-Baselines übertrifft und in allen evaluierten Benchmarks Spitzenergebnisse erzielt.

English

Reinforcement learning has emerged as a powerful tool for improving diffusion-based text-to-image models, but existing methods are largely limited to single-task optimization. Extending RL to multiple tasks is challenging: joint optimization suffers from cross-task interference and imbalance, while cascade RL is cumbersome and prone to catastrophic forgetting. We propose DiffusionOPD, a new multi-task training paradigm for diffusion models based on Online Policy Distillation (OPD). DiffusionOPD first trains task-specific teachers independently, then distills their capabilities into a unified student along the student own rollout trajectories. This decouples single-task exploration from multi-task integration and avoids the optimization burden of solving all tasks jointly from scratch. Theoretically, we lift the OPD framework from discrete tokens to continuous-state Markov processes, deriving a closed-form per-step KL objective that unifies both stochastic SDE and deterministic ODE refinement via mean-matching. We formally and empirically demonstrate that this analytic gradient provides lower variance and better generality compared to conventional PPO-style policy gradients. Extensive experiments show that DiffusionOPD consistently surpasses both multi-reward RL and cascade RL baselines in training efficiency and final performance, while achieving state-of-the-art results on all evaluated benchmarks.