고속 비디오 생성을 위한 전이 매칭 증류
Transition Matching Distillation for Fast Video Generation
January 14, 2026
저자: Weili Nie, Julius Berner, Nanye Ma, Chao Liu, Saining Xie, Arash Vahdat
cs.AI
초록
대규모 비디오 확산 및 흐름 모델은 고품질 비디오 생성에서 놀라운 성공을 거두었지만, 비효율적인 다단계 샘플링 과정으로 인해 실시간 인터랙티브 애플리케이션에서의 사용은 여전히 제한적입니다. 본 연구에서는 비디오 확산 모델을 효율적인 소수 단계 생성기로 지식 증류하는 새로운 프레임워크인 전이 매칭 증류(TMD)를 제안합니다. TMD의 핵심 아이디어는 확산 모델의 다단계 노이즈 제거 궤적을 소수 단계의 확률적 전이 과정과 매칭하는 것으로, 각 전이는 경량 조건부 흐름으로 모델링됩니다. 효율적인 증류를 위해 기존 확산 백본을 두 가지 구성 요소로 분해합니다: (1) 대부분의 초기 레이어로 구성되어 외부 전이 단계마다 의미론적 표현을 추출하는 메인 백본과 (2) 마지막 몇 개의 레이어로 구성되어 이러한 표현을 활용하여 여러 내부 흐름 업데이트를 수행하는 흐름 헤드입니다. 사전 학습된 비디오 확산 모델이 주어지면, 먼저 모델에 흐름 헤드를 도입하고 조건부 흐름 맵으로 적응시킵니다. 그런 다음 각 전이 단계에서 흐름 헤드 롤아웃을 사용하여 학생 모델에 분포 매칭 증류를 적용합니다. Wan2.1 1.3B 및 14B 텍스트-투-비디오 모델 증류에 대한 광범위한 실험을 통해 TMD가 생성 속도와 시각적 품질 간에 유연하고 강력한 트레이드오프를 제공함을 입증합니다. 특히, TMD는 유사한 추론 비용 대비 기존 증류 모델들을 시각적 충실도와 프롬프트 준수도 측면에서 능가합니다. 프로젝트 페이지: https://research.nvidia.com/labs/genair/tmd
English
Large video diffusion and flow models have achieved remarkable success in high-quality video generation, but their use in real-time interactive applications remains limited due to their inefficient multi-step sampling process. In this work, we present Transition Matching Distillation (TMD), a novel framework for distilling video diffusion models into efficient few-step generators. The central idea of TMD is to match the multi-step denoising trajectory of a diffusion model with a few-step probability transition process, where each transition is modeled as a lightweight conditional flow. To enable efficient distillation, we decompose the original diffusion backbone into two components: (1) a main backbone, comprising the majority of early layers, that extracts semantic representations at each outer transition step; and (2) a flow head, consisting of the last few layers, that leverages these representations to perform multiple inner flow updates. Given a pretrained video diffusion model, we first introduce a flow head to the model, and adapt it into a conditional flow map. We then apply distribution matching distillation to the student model with flow head rollout in each transition step. Extensive experiments on distilling Wan2.1 1.3B and 14B text-to-video models demonstrate that TMD provides a flexible and strong trade-off between generation speed and visual quality. In particular, TMD outperforms existing distilled models under comparable inference costs in terms of visual fidelity and prompt adherence. Project page: https://research.nvidia.com/labs/genair/tmd