Overdracht van Transitieovereenkomst voor Snelle Videogeneratie

Samenvatting

Grote videodiffusie- en flowmodellen hebben opmerkelijke successen geboekt in het genereren van hoogwaardige video's, maar hun toepassing in real-time interactieve toepassingen blijft beperkt vanwege hun inefficiënte multi-step samplingproces. In dit werk presenteren we Transition Matching Distillation (TMD), een nieuw raamwerk voor het destilleren van videodiffusiemodellen tot efficiënte few-step generatoren. Het centrale idee van TMD is om het multi-step denoising-traject van een diffusiemodel af te stemmen op een few-step waarschijnlijkheidsovergangsproces, waarbij elke overgang wordt gemodelleerd als een lichtgewicht conditionele flow. Om efficiënte distillatie mogelijk te maken, ontleden we de oorspronkelijke diffusie-backbone in twee componenten: (1) een hoofdbackbone, bestaande uit de meeste vroege lagen, die semantische representaties extraheert bij elke externe overgangsstap; en (2) een flow-head, bestaande uit de laatste paar lagen, die deze representaties benut om meerdere interne flow-updates uit te voeren. Gegeven een voorgetraind videodiffusiemodel, introduceren we eerst een flow-head in het model en passen we deze aan naar een conditionele flow-map. Vervolgens passen we distribution matching distillation toe op het studentenmodel met flow-head rollout in elke overgangsstap. Uitgebreide experimenten met het destilleren van Wan2.1 1.3B en 14B tekst-naar-videomodellen tonen aan dat TMD een flexibele en sterke afweging biedt tussen generatiesnelheid en visuele kwaliteit. In het bijzonder presteert TMD beter dan bestaande gedistilleerde modellen bij vergelijkbare inferentiekosten wat betreft visuele kwaliteit en promptnauwkeurigheid. Projectpagina: https://research.nvidia.com/labs/genair/tmd

English

Large video diffusion and flow models have achieved remarkable success in high-quality video generation, but their use in real-time interactive applications remains limited due to their inefficient multi-step sampling process. In this work, we present Transition Matching Distillation (TMD), a novel framework for distilling video diffusion models into efficient few-step generators. The central idea of TMD is to match the multi-step denoising trajectory of a diffusion model with a few-step probability transition process, where each transition is modeled as a lightweight conditional flow. To enable efficient distillation, we decompose the original diffusion backbone into two components: (1) a main backbone, comprising the majority of early layers, that extracts semantic representations at each outer transition step; and (2) a flow head, consisting of the last few layers, that leverages these representations to perform multiple inner flow updates. Given a pretrained video diffusion model, we first introduce a flow head to the model, and adapt it into a conditional flow map. We then apply distribution matching distillation to the student model with flow head rollout in each transition step. Extensive experiments on distilling Wan2.1 1.3B and 14B text-to-video models demonstrate that TMD provides a flexible and strong trade-off between generation speed and visual quality. In particular, TMD outperforms existing distilled models under comparable inference costs in terms of visual fidelity and prompt adherence. Project page: https://research.nvidia.com/labs/genair/tmd

Overdracht van Transitieovereenkomst voor Snelle Videogeneratie

Transition Matching Distillation for Fast Video Generation

Samenvatting

Support