Distillation par Appariement de Transition pour une Génération Vidéo Rapide
Transition Matching Distillation for Fast Video Generation
January 14, 2026
papers.authors: Weili Nie, Julius Berner, Nanye Ma, Chao Liu, Saining Xie, Arash Vahdat
cs.AI
papers.abstract
Les grands modèles de diffusion et de flux vidéo ont obtenu un succès remarquable dans la génération de vidéos de haute qualité, mais leur utilisation dans les applications interactives en temps réel reste limitée en raison de leur processus d'échantillonnage multi-étapes inefficace. Dans ce travail, nous présentons la Distillation par Appariement de Transitions (TMD), un cadre novateur pour distiller les modèles de diffusion vidéo en générateurs efficaces à faible nombre d'étapes. L'idée centrale de TMD est d'apparier la trajectoire de bruitage inverse multi-étapes d'un modèle de diffusion avec un processus de transition de probabilité en peu d'étapes, où chaque transition est modélisée comme un flux conditionnel léger. Pour permettre une distillation efficace, nous décomposons l'architecture de diffusion originale en deux composants : (1) une architecture principale, comprenant la majorité des premières couches, qui extrait des représentations sémantiques à chaque étape de transition externe ; et (2) une tête de flux, constituée des dernières couches, qui exploite ces représentations pour effectuer plusieurs mises à jour de flux internes. Étant donné un modèle de diffusion vidéo pré-entraîné, nous introduisons d'abord une tête de flux dans le modèle, et l'adaptons en une carte de flux conditionnelle. Nous appliquons ensuite une distillation par appariement de distributions au modèle étudiant avec un déploiement de la tête de flux à chaque étape de transition. Des expériences approfondies sur la distillation des modèles texte-à-vidéo Wan2.1 1.3B et 14B démontrent que TMD offre un compromis flexible et solide entre la vitesse de génération et la qualité visuelle. En particulier, TMD surpasse les modèles distillés existants pour des coûts d'inférence comparables en termes de fidélité visuelle et d'adhérence à l'invite. Page du projet : https://research.nvidia.com/labs/genair/tmd
English
Large video diffusion and flow models have achieved remarkable success in high-quality video generation, but their use in real-time interactive applications remains limited due to their inefficient multi-step sampling process. In this work, we present Transition Matching Distillation (TMD), a novel framework for distilling video diffusion models into efficient few-step generators. The central idea of TMD is to match the multi-step denoising trajectory of a diffusion model with a few-step probability transition process, where each transition is modeled as a lightweight conditional flow. To enable efficient distillation, we decompose the original diffusion backbone into two components: (1) a main backbone, comprising the majority of early layers, that extracts semantic representations at each outer transition step; and (2) a flow head, consisting of the last few layers, that leverages these representations to perform multiple inner flow updates. Given a pretrained video diffusion model, we first introduce a flow head to the model, and adapt it into a conditional flow map. We then apply distribution matching distillation to the student model with flow head rollout in each transition step. Extensive experiments on distilling Wan2.1 1.3B and 14B text-to-video models demonstrate that TMD provides a flexible and strong trade-off between generation speed and visual quality. In particular, TMD outperforms existing distilled models under comparable inference costs in terms of visual fidelity and prompt adherence. Project page: https://research.nvidia.com/labs/genair/tmd