Kontinuierliche Zeit-Verteilungsanpassung für Diffusionsdistillation in wenigen Schritten

Zusammenfassung

Schrittweise Distillation hat sich zu einer führenden Technik zur Beschleunigung von Diffusionsmodellen entwickelt, wobei Distribution Matching Distillation (DMD) und Consistency Distillation zwei repräsentative Paradigmen darstellen. Während Konsistenzmethoden Selbstkonsistenz entlang der gesamten PF-ODE-Trajektorie erzwingen, um sie in Richtung der sauberen Datenmannigfaltigkeit zu lenken, stützt sich das ursprüngliche DMD auf spärliche Supervision bei einigen wenigen vordefinierten diskreten Zeitschritten. Diese eingeschränkte diskret-zeitliche Formulierung und die modus-suchende Natur der umgekehrten KL-Divergenz neigen dazu, visuelle Artefakte und übermäßig geglättete Ergebnisse zu zeigen, was oft komplexe Hilfsmodule – wie GANs oder Belohnungsmodelle – erforderlich macht, um die visuelle Qualität wiederherzustellen. In dieser Arbeit führen wir Continuous-Time Distribution Matching (CDM) ein, das den DMD-Rahmen erstmals von diskreter Verankerung auf kontinuierliche Optimierung überträgt. CDM erreicht dies durch zwei kontinuierlich-zeitliche Designs. Erstens ersetzen wir den festen diskreten Zeitplan durch einen dynamischen kontinuierlichen Zeitplan zufälliger Länge, sodass die Verteilungsanpassung an beliebigen Punkten entlang der Sampling-Trajektorien durchgesetzt wird und nicht nur an wenigen festen Ankerpunkten. Zweitens schlagen wir ein kontinuierlich-zeitliches Ausrichtungsziel vor, das aktives Off-Trajektorie-Matching auf Latents durchführt, die über das Geschwindigkeitsfeld des Studenten extrapoliert werden, was die Generalisierung verbessert und feine visuelle Details erhält. Umfangreiche Experimente mit verschiedenen Architekturen, einschließlich SD3-Medium und Longcat-Image, zeigen, dass CDM eine hochgradig wettbewerbsfähige visuelle Qualität für die Bildgenerierung mit wenigen Schritten bietet, ohne auf komplexe Hilfsziele angewiesen zu sein. Der Code ist verfügbar unter https://github.com/byliutao/cdm.

English

Step distillation has become a leading technique for accelerating diffusion models, among which Distribution Matching Distillation (DMD) and Consistency Distillation are two representative paradigms. While consistency methods enforce self-consistency along the full PF-ODE trajectory to steer it toward the clean data manifold, vanilla DMD relies on sparse supervision at a few predefined discrete timesteps. This restricted discrete-time formulation and mode-seeking nature of the reverse KL divergence tends to exhibit visual artifacts and over-smoothed outputs, often necessitating complex auxiliary modules -- such as GANs or reward models -- to restore visual fidelity. In this work, we introduce Continuous-Time Distribution Matching (CDM), migrating the DMD framework from discrete anchoring to continuous optimization for the first time. CDM achieves this through two continuous-time designs. First, we replace the fixed discrete schedule with a dynamic continuous schedule of random length, so that distribution matching is enforced at arbitrary points along sampling trajectories rather than only at a few fixed anchors. Second, we propose a continuous-time alignment objective that performs active off-trajectory matching on latents extrapolated via the student's velocity field, improving generalization and preserving fine visual details. Extensive experiments on different architectures, including SD3-Medium and Longcat-Image, demonstrate that CDM provides highly competitive visual fidelity for few-step image generation without relying on complex auxiliary objectives. Code is available at https://github.com/byliutao/cdm.

Kontinuierliche Zeit-Verteilungsanpassung für Diffusionsdistillation in wenigen Schritten

Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

Zusammenfassung

Support