Distillazione per Abbinamento delle Transizioni per la Generazione Rapida di Video

Abstract

I modelli di diffusione e di flusso video su larga scala hanno ottenuto un successo notevole nella generazione di video di alta qualità, ma il loro utilizzo in applicazioni interattive in tempo reale rimane limitato a causa del loro processo di campionamento multi-step inefficiente. In questo lavoro, presentiamo Transition Matching Distillation (TMD), un framework innovativo per distillare modelli di diffusione video in generatori efficienti a pochi passi. L'idea centrale di TMD è quella di far corrispondere la traiettoria di denoising multi-step di un modello di diffusione con un processo di transizione di probabilità a pochi passi, dove ogni transizione è modellata come un flusso condizionale leggero. Per abilitare una distillazione efficiente, scomponiamo l'architettura di diffusione originale in due componenti: (1) un'architettura principale, che comprende la maggior parte degli strati iniziali, che estrae rappresentazioni semantiche ad ogni passo di transizione esterno; e (2) un "flow head", costituito dagli ultimi strati, che sfrutta queste rappresentazioni per eseguire aggiornamenti multipli del flusso interno. Dato un modello di diffusione video preaddestrato, introduciamo prima un flow head nel modello e lo adattiamo in una mappa di flusso condizionale. Applichiamo quindi la distillazione per corrispondenza di distribuzione al modello studente con il rollout del flow head in ogni passo di transizione. Esperimenti estesi sulla distillazione dei modelli text-to-video Wan2.1 da 1.3B e 14B parametri dimostrano che TMD fornisce un compromesso flessibile e solido tra velocità di generazione e qualità visiva. In particolare, TMD supera i modelli distillati esistenti con costi di inferenza comparabili in termini di fedeltà visiva e aderenza al prompt. Pagina del progetto: https://research.nvidia.com/labs/genair/tmd

English

Large video diffusion and flow models have achieved remarkable success in high-quality video generation, but their use in real-time interactive applications remains limited due to their inefficient multi-step sampling process. In this work, we present Transition Matching Distillation (TMD), a novel framework for distilling video diffusion models into efficient few-step generators. The central idea of TMD is to match the multi-step denoising trajectory of a diffusion model with a few-step probability transition process, where each transition is modeled as a lightweight conditional flow. To enable efficient distillation, we decompose the original diffusion backbone into two components: (1) a main backbone, comprising the majority of early layers, that extracts semantic representations at each outer transition step; and (2) a flow head, consisting of the last few layers, that leverages these representations to perform multiple inner flow updates. Given a pretrained video diffusion model, we first introduce a flow head to the model, and adapt it into a conditional flow map. We then apply distribution matching distillation to the student model with flow head rollout in each transition step. Extensive experiments on distilling Wan2.1 1.3B and 14B text-to-video models demonstrate that TMD provides a flexible and strong trade-off between generation speed and visual quality. In particular, TMD outperforms existing distilled models under comparable inference costs in terms of visual fidelity and prompt adherence. Project page: https://research.nvidia.com/labs/genair/tmd

Distillazione per Abbinamento delle Transizioni per la Generazione Rapida di Video

Transition Matching Distillation for Fast Video Generation

Abstract

Support