Сопоставление переходов для дистилляции в задачах быстрого генеративного видеомоделирования
Transition Matching Distillation for Fast Video Generation
January 14, 2026
Авторы: Weili Nie, Julius Berner, Nanye Ma, Chao Liu, Saining Xie, Arash Vahdat
cs.AI
Аннотация
Крупные модели диффузии и потоковые модели для видео достигли выдающихся успехов в генерации высококачественного видео, однако их применение в интерактивных приложениях реального времени остается ограниченным из-за неэффективного многошагового процесса сэмплирования. В данной работе мы представляем Transition Matching Distillation (TMD) — новую структуру для дистилляции моделей видео-диффузии в эффективные генераторы с малым количеством шагов. Основная идея TMD заключается в сопоставлении многошаговой траектории удаления шума модели диффузии с малошаговым процессом вероятностного перехода, где каждый переход моделируется как легковесное условное потоковое преобразование. Для обеспечения эффективной дистилляции мы разлагаем исходную основную архитектуру диффузии на два компонента: (1) основную сеть, содержащую большинство ранних слоев, которая извлекает семантические представления на каждом внешнем шаге перехода; и (2) потоковый головной модуль, состоящий из последних нескольких слоев, который использует эти представления для выполнения нескольких внутренних потоковых обновлений. Имея предварительно обученную модель видео-диффузии, мы сначала добавляем к модели потоковый головной модуль и адаптируем его в условное потоковое отображение. Затем мы применяем дистилляцию с согласованием распределений к студенческой модели с развертыванием потокового головного модуля на каждом шаге перехода. Многочисленные эксперименты по дистилляции текстово-видео моделей Wan2.1 1.3B и 14B демонстрируют, что TMD обеспечивает гибкий и эффективный компромисс между скоростью генерации и визуальным качеством. В частности, TMD превосходит существующие дистиллированные модели при сопоставимых вычислительных затратах на вывод по показателям визуального правдоподобия и соответствия текстовому описанию. Страница проекта: https://research.nvidia.com/labs/genair/tmd
English
Large video diffusion and flow models have achieved remarkable success in high-quality video generation, but their use in real-time interactive applications remains limited due to their inefficient multi-step sampling process. In this work, we present Transition Matching Distillation (TMD), a novel framework for distilling video diffusion models into efficient few-step generators. The central idea of TMD is to match the multi-step denoising trajectory of a diffusion model with a few-step probability transition process, where each transition is modeled as a lightweight conditional flow. To enable efficient distillation, we decompose the original diffusion backbone into two components: (1) a main backbone, comprising the majority of early layers, that extracts semantic representations at each outer transition step; and (2) a flow head, consisting of the last few layers, that leverages these representations to perform multiple inner flow updates. Given a pretrained video diffusion model, we first introduce a flow head to the model, and adapt it into a conditional flow map. We then apply distribution matching distillation to the student model with flow head rollout in each transition step. Extensive experiments on distilling Wan2.1 1.3B and 14B text-to-video models demonstrate that TMD provides a flexible and strong trade-off between generation speed and visual quality. In particular, TMD outperforms existing distilled models under comparable inference costs in terms of visual fidelity and prompt adherence. Project page: https://research.nvidia.com/labs/genair/tmd