Destilação por Correspondência de Transição para Geração Rápida de Vídeo
Transition Matching Distillation for Fast Video Generation
January 14, 2026
Autores: Weili Nie, Julius Berner, Nanye Ma, Chao Liu, Saining Xie, Arash Vahdat
cs.AI
Resumo
Modelos de difusão e fluxo de vídeo em larga escala alcançaram sucesso notável na geração de vídeos de alta qualidade, mas o seu uso em aplicações interativas em tempo real permanece limitado devido ao seu processo de amostragem multi-etapas ineficiente. Neste trabalho, apresentamos a Distilação por Correspondência de Transição (TMD), uma estrutura nova para destilar modelos de difusão de vídeo em geradores eficientes de poucas etapas. A ideia central do TMD é corresponder a trajetória de remoção de ruído multi-etapas de um modelo de difusão com um processo de transição de probabilidade de poucas etapas, onde cada transição é modelada como um fluxo condicional leve. Para permitir uma destilação eficiente, decompomos a espinha dorsal de difusão original em dois componentes: (1) uma espinha dorsal principal, compreendendo a maioria das camadas iniciais, que extrai representações semânticas em cada etapa de transição externa; e (2) uma cabeça de fluxo, consistindo nas últimas camadas, que aproveita essas representações para realizar múltiplas atualizações de fluxo internas. Dado um modelo de difusão de vídeo pré-treinado, introduzimos primeiro uma cabeça de fluxo ao modelo e adaptamo-lo num mapa de fluxo condicional. Em seguida, aplicamos a destilação por correspondência de distribuição ao modelo estudante com a execução da cabeça de fluxo em cada etapa de transição. Experiências extensivas na destilação dos modelos de texto para vídeo Wan2.1 1.3B e 14B demonstram que o TMD oferece um compromisso flexível e robusto entre a velocidade de geração e a qualidade visual. Em particular, o TMD supera os modelos destilados existentes sob custos de inferência comparáveis em termos de fidelidade visual e aderência ao prompt. Página do projeto: https://research.nvidia.com/labs/genair/tmd
English
Large video diffusion and flow models have achieved remarkable success in high-quality video generation, but their use in real-time interactive applications remains limited due to their inefficient multi-step sampling process. In this work, we present Transition Matching Distillation (TMD), a novel framework for distilling video diffusion models into efficient few-step generators. The central idea of TMD is to match the multi-step denoising trajectory of a diffusion model with a few-step probability transition process, where each transition is modeled as a lightweight conditional flow. To enable efficient distillation, we decompose the original diffusion backbone into two components: (1) a main backbone, comprising the majority of early layers, that extracts semantic representations at each outer transition step; and (2) a flow head, consisting of the last few layers, that leverages these representations to perform multiple inner flow updates. Given a pretrained video diffusion model, we first introduce a flow head to the model, and adapt it into a conditional flow map. We then apply distribution matching distillation to the student model with flow head rollout in each transition step. Extensive experiments on distilling Wan2.1 1.3B and 14B text-to-video models demonstrate that TMD provides a flexible and strong trade-off between generation speed and visual quality. In particular, TMD outperforms existing distilled models under comparable inference costs in terms of visual fidelity and prompt adherence. Project page: https://research.nvidia.com/labs/genair/tmd