ChatPaper.aiChatPaper

PyramidalWan : Rendre les modèles vidéo pré-entraînés pyramidaux pour une inférence efficace

PyramidalWan: On Making Pretrained Video Model Pyramidal for Efficient Inference

January 8, 2026
papers.authors: Denis Korzhenkov, Adil Karjauv, Animesh Karnewar, Mohsen Ghafoorian, Amirhossein Habibian
cs.AI

papers.abstract

Les modèles pyramidaux récemment proposés décomposent les processus de diffusion avant et arrière conventionnels en plusieurs étapes opérant à différentes résolutions. Ces modèles traitent les entrées avec des niveaux de bruit plus élevés aux résolutions inférieures, tandis que les entrées moins bruitées sont traitées aux résolutions supérieures. Cette approche hiérarchique réduit significativement le coût computationnel de l'inférence dans les modèles de débruitage multi-étapes. Cependant, les modèles vidéo pyramidaux open-source existants ont été entraînés à partir de zéro et tendent à sous-performer par rapport aux systèmes de pointe en termes de plausibilité visuelle. Dans ce travail, nous présentons une pipeline qui convertit un modèle de diffusion pré-entraîné en un modèle pyramidal par un finetuning à faible coût, réalisant cette transformation sans dégradation de la qualité des vidéos produites. De plus, nous étudions et comparons diverses stratégies de distillation d'étapes au sein des modèles pyramidaux, visant à améliorer davantage l'efficacité de l'inférence. Nos résultats sont disponibles à l'adresse https://qualcomm-ai-research.github.io/PyramidalWan.
English
Recently proposed pyramidal models decompose the conventional forward and backward diffusion processes into multiple stages operating at varying resolutions. These models handle inputs with higher noise levels at lower resolutions, while less noisy inputs are processed at higher resolutions. This hierarchical approach significantly reduces the computational cost of inference in multi-step denoising models. However, existing open-source pyramidal video models have been trained from scratch and tend to underperform compared to state-of-the-art systems in terms of visual plausibility. In this work, we present a pipeline that converts a pretrained diffusion model into a pyramidal one through low-cost finetuning, achieving this transformation without degradation in quality of output videos. Furthermore, we investigate and compare various strategies for step distillation within pyramidal models, aiming to further enhance the inference efficiency. Our results are available at https://qualcomm-ai-research.github.io/PyramidalWan.
PDF11January 10, 2026