Destilación por Coincidencia de Transiciones para la Generación Rápida de Vídeo
Transition Matching Distillation for Fast Video Generation
January 14, 2026
Autores: Weili Nie, Julius Berner, Nanye Ma, Chao Liu, Saining Xie, Arash Vahdat
cs.AI
Resumen
Los grandes modelos de difusión y flujo de video han logrado un éxito notable en la generación de video de alta calidad, pero su uso en aplicaciones interactivas en tiempo real sigue siendo limitado debido a su proceso de muestreo multi-paso ineficiente. En este trabajo, presentamos Destilación por Correspondencia de Transiciones (TMD), un marco novedoso para destilar modelos de difusión de video en generadores eficientes de pocos pasos. La idea central de TMD es hacer coincidir la trayectoria de eliminación de ruido multi-paso de un modelo de difusión con un proceso de transición de probabilidad de pocos pasos, donde cada transición se modela como un flujo condicional ligero. Para permitir una destilación eficiente, descomponemos la arquitectura original de difusión en dos componentes: (1) una arquitectura principal, que comprende la mayoría de las capas iniciales, que extrae representaciones semánticas en cada paso de transición externo; y (2) una cabeza de flujo, que consiste en las últimas capas, que aprovecha estas representaciones para realizar múltiples actualizaciones de flujo internas. Dado un modelo de difusión de video preentrenado, primero introducimos una cabeza de flujo en el modelo y lo adaptamos a un mapa de flujo condicional. Luego aplicamos destilación por correspondencia de distribuciones al modelo estudiante con el despliegue de la cabeza de flujo en cada paso de transición. Experimentos exhaustivos en la destilación de modelos de texto a video Wan2.1 de 1.3B y 14B demuestran que TMD ofrece un equilibrio flexible y sólido entre la velocidad de generación y la calidad visual. En particular, TMD supera a los modelos destilados existentes bajo costos de inferencia comparables en términos de fidelidad visual y adherencia al prompt. Página del proyecto: https://research.nvidia.com/labs/genair/tmd
English
Large video diffusion and flow models have achieved remarkable success in high-quality video generation, but their use in real-time interactive applications remains limited due to their inefficient multi-step sampling process. In this work, we present Transition Matching Distillation (TMD), a novel framework for distilling video diffusion models into efficient few-step generators. The central idea of TMD is to match the multi-step denoising trajectory of a diffusion model with a few-step probability transition process, where each transition is modeled as a lightweight conditional flow. To enable efficient distillation, we decompose the original diffusion backbone into two components: (1) a main backbone, comprising the majority of early layers, that extracts semantic representations at each outer transition step; and (2) a flow head, consisting of the last few layers, that leverages these representations to perform multiple inner flow updates. Given a pretrained video diffusion model, we first introduce a flow head to the model, and adapt it into a conditional flow map. We then apply distribution matching distillation to the student model with flow head rollout in each transition step. Extensive experiments on distilling Wan2.1 1.3B and 14B text-to-video models demonstrate that TMD provides a flexible and strong trade-off between generation speed and visual quality. In particular, TMD outperforms existing distilled models under comparable inference costs in terms of visual fidelity and prompt adherence. Project page: https://research.nvidia.com/labs/genair/tmd