PyramidalWan: Rendere Piramidale il Modello Video Pre-addestrato per un'Inferenza Efficiente
PyramidalWan: On Making Pretrained Video Model Pyramidal for Efficient Inference
January 8, 2026
Autori: Denis Korzhenkov, Adil Karjauv, Animesh Karnewar, Mohsen Ghafoorian, Amirhossein Habibian
cs.AI
Abstract
I modelli piramidali proposti di recente scompongono i convenzionali processi di diffusione in avanti e all'indietro in più stadi operanti a diverse risoluzioni. Questi modelli gestiscono input con livelli di rumore più elevati a risoluzioni inferiori, mentre input meno rumorosi vengono elaborati a risoluzioni superiori. Questo approccio gerarchico riduce significativamente il costo computazionale dell'inferenza nei modelli di denoising multi-step. Tuttavia, gli attuali modelli piramidali video open-source sono stati addestrati da zero e tendono a ottenere prestazioni inferiori rispetto ai sistemi all'avanguardia in termini di plausibilità visiva. In questo lavoro, presentiamo una pipeline che converte un modello di diffusione preaddestrato in uno piramidale mediante fine-tuning a basso costo, raggiungendo questa trasformazione senza degradare la qualità dei video in output. Inoltre, investigiamo e confrontiamo varie strategie di distillazione dei passi all'interno dei modelli piramidali, con l'obiettivo di migliorare ulteriormente l'efficienza inferenziale. I nostri risultati sono disponibili su https://qualcomm-ai-research.github.io/PyramidalWan.
English
Recently proposed pyramidal models decompose the conventional forward and backward diffusion processes into multiple stages operating at varying resolutions. These models handle inputs with higher noise levels at lower resolutions, while less noisy inputs are processed at higher resolutions. This hierarchical approach significantly reduces the computational cost of inference in multi-step denoising models. However, existing open-source pyramidal video models have been trained from scratch and tend to underperform compared to state-of-the-art systems in terms of visual plausibility. In this work, we present a pipeline that converts a pretrained diffusion model into a pyramidal one through low-cost finetuning, achieving this transformation without degradation in quality of output videos. Furthermore, we investigate and compare various strategies for step distillation within pyramidal models, aiming to further enhance the inference efficiency. Our results are available at https://qualcomm-ai-research.github.io/PyramidalWan.