Transition Matching Distillation für schnelle Videogenerierung
Transition Matching Distillation for Fast Video Generation
January 14, 2026
papers.authors: Weili Nie, Julius Berner, Nanye Ma, Chao Liu, Saining Xie, Arash Vahdat
cs.AI
papers.abstract
Große Video-Diffusions- und Flow-Modelle haben bemerkenswerte Erfolge bei der Erzeugung hochwertiger Videos erzielt, doch ihre Verwendung in Echtzeit-Interaktionsanwendungen bleibt aufgrund ihres ineffizienten Multi-Step-Sampling-Prozesses eingeschränkt. In dieser Arbeit stellen wir Transition Matching Distillation (TMD) vor, ein neuartiges Framework zur Distillation von Video-Diffusionsmodellen in effiziente Few-Step-Generatoren. Die zentrale Idee von TMD ist es, die Multi-Step-Entrauschungstrajektorie eines Diffusionsmodells mit einem Few-Step-Wahrscheinlichkeitsübergangsprozess abzugleichen, wobei jeder Übergang als leichtgewichtiger konditioneller Flow modelliert wird. Um eine effiziente Distillation zu ermöglichen, zerlegen wir das ursprüngliche Diffusions-Backbone in zwei Komponenten: (1) ein Haupt-Backbone, das die Mehrheit der frühen Schichten umfasst und semantische Repräsentationen in jedem äußeren Übergangsschritt extrahiert; und (2) einen Flow-Head, bestehend aus den letzten wenigen Schichten, der diese Repräsentationen nutzt, um mehrere innere Flow-Updates durchzuführen. Ausgehend von einem vortrainierten Video-Diffusionsmodell führen wir zunächst einen Flow-Head in das Modell ein und passen es an eine konditionelle Flow-Map an. Anwenden wenden wir dann Distribution Matching Distillation auf das Studentenmodell mit Flow-Head-Rollout in jedem Übergangsschritt an. Umfangreiche Experimente zur Distillation von Wan2.1 1.3B und 14B Text-to-Video-Modellen zeigen, dass TMD eine flexible und starke Balance zwischen Generierungsgeschwindigkeit und visueller Qualität bietet. Insbesondere übertrifft TMD bestehende distillierte Modelle bei vergleichbaren Inferenzkosten in Bezug auf visuelle Qualität und Prompt-Treue. Projektseite: https://research.nvidia.com/labs/genair/tmd
English
Large video diffusion and flow models have achieved remarkable success in high-quality video generation, but their use in real-time interactive applications remains limited due to their inefficient multi-step sampling process. In this work, we present Transition Matching Distillation (TMD), a novel framework for distilling video diffusion models into efficient few-step generators. The central idea of TMD is to match the multi-step denoising trajectory of a diffusion model with a few-step probability transition process, where each transition is modeled as a lightweight conditional flow. To enable efficient distillation, we decompose the original diffusion backbone into two components: (1) a main backbone, comprising the majority of early layers, that extracts semantic representations at each outer transition step; and (2) a flow head, consisting of the last few layers, that leverages these representations to perform multiple inner flow updates. Given a pretrained video diffusion model, we first introduce a flow head to the model, and adapt it into a conditional flow map. We then apply distribution matching distillation to the student model with flow head rollout in each transition step. Extensive experiments on distilling Wan2.1 1.3B and 14B text-to-video models demonstrate that TMD provides a flexible and strong trade-off between generation speed and visual quality. In particular, TMD outperforms existing distilled models under comparable inference costs in terms of visual fidelity and prompt adherence. Project page: https://research.nvidia.com/labs/genair/tmd