PyramidalWan: Het omvormen van vooraf getrainde videomodellen naar een piramidale structuur voor efficiënte inferentie
PyramidalWan: On Making Pretrained Video Model Pyramidal for Efficient Inference
January 8, 2026
Auteurs: Denis Korzhenkov, Adil Karjauv, Animesh Karnewar, Mohsen Ghafoorian, Amirhossein Habibian
cs.AI
Samenvatting
Recent voorgestelde piramidale modellen ontbinden de conventionele voorwaartse en achterwaartse diffusieprocessen in meerdere fasen die werken op verschillende resoluties. Deze modellen verwerken invoer met hogere ruisniveaus op lagere resoluties, terwijl minder ruisachtige invoer op hogere resoluties wordt verwerkt. Deze hiërarchische aanpak vermindert de rekenkosten van inferentie in multi-step denoiseringsmodellen aanzienlijk. Echter, bestaande open-source piramidale videomodellen zijn vanaf nul getraind en presteren doorgaans minder goed dan state-of-the-art systemen wat betreft visuele geloofwaardigheid. In dit werk presenteren we een pijplijn die een vooraf getraind diffusiemodel omzet in een piramidaal model via goedkope finetuning, waarbij deze transformatie wordt bereikt zonder degradatie van de kwaliteit van de uitvoervideo's. Verder onderzoeken en vergelijken we verschillende strategieën voor stapdistillatie binnen piramidale modellen, met als doel de inferentie-efficiëntie verder te verbeteren. Onze resultaten zijn beschikbaar op https://qualcomm-ai-research.github.io/PyramidalWan.
English
Recently proposed pyramidal models decompose the conventional forward and backward diffusion processes into multiple stages operating at varying resolutions. These models handle inputs with higher noise levels at lower resolutions, while less noisy inputs are processed at higher resolutions. This hierarchical approach significantly reduces the computational cost of inference in multi-step denoising models. However, existing open-source pyramidal video models have been trained from scratch and tend to underperform compared to state-of-the-art systems in terms of visual plausibility. In this work, we present a pipeline that converts a pretrained diffusion model into a pyramidal one through low-cost finetuning, achieving this transformation without degradation in quality of output videos. Furthermore, we investigate and compare various strategies for step distillation within pyramidal models, aiming to further enhance the inference efficiency. Our results are available at https://qualcomm-ai-research.github.io/PyramidalWan.