PyramidalWan: Zur Umwandlung vortrainierter Videomodelle in pyramidale Strukturen für effiziente Inferenz
PyramidalWan: On Making Pretrained Video Model Pyramidal for Efficient Inference
January 8, 2026
papers.authors: Denis Korzhenkov, Adil Karjauv, Animesh Karnewar, Mohsen Ghafoorian, Amirhossein Habibian
cs.AI
papers.abstract
Kürzlich vorgeschlagene pyramidale Modelle zerlegen die konventionellen Vorwärts- und Rückwärts-Diffusionsprozesse in mehrere Stufen, die mit unterschiedlichen Auflösungen arbeiten. Diese Modelle verarbeiten Eingaben mit höheren Rauschpegeln bei niedrigeren Auflösungen, während weniger verrauschte Eingaben bei höheren Auflösungen bearbeitet werden. Dieser hierarchische Ansatz reduziert den Rechenaufwand für den Inferenzvorgang in mehrstufigen Entrauschungsmodellen erheblich. Allerdings wurden bestehende quelloffene pyramidale Videomodelle von Grund auf trainiert und schneiden im Vergleich zu state-of-the-art-Systemen in Bezug auf die visuelle Plausibilität tendenziell schwächer ab. In dieser Arbeit stellen wir eine Pipeline vor, die ein vortrainiertes Diffusionsmodell durch kostengünstiges Finetuning in ein pyramidales Modell überführt und diese Transformation ohne Qualitätseinbußen bei den Ausgangsvideos erreicht. Darüber hinaus untersuchen und vergleichen wir verschiedene Strategien zur Schritt-Distillation innerhalb pyramidaler Modelle, um die Inferenzeffizienz weiter zu steigern. Unsere Ergebnisse sind verfügbar unter https://qualcomm-ai-research.github.io/PyramidalWan.
English
Recently proposed pyramidal models decompose the conventional forward and backward diffusion processes into multiple stages operating at varying resolutions. These models handle inputs with higher noise levels at lower resolutions, while less noisy inputs are processed at higher resolutions. This hierarchical approach significantly reduces the computational cost of inference in multi-step denoising models. However, existing open-source pyramidal video models have been trained from scratch and tend to underperform compared to state-of-the-art systems in terms of visual plausibility. In this work, we present a pipeline that converts a pretrained diffusion model into a pyramidal one through low-cost finetuning, achieving this transformation without degradation in quality of output videos. Furthermore, we investigate and compare various strategies for step distillation within pyramidal models, aiming to further enhance the inference efficiency. Our results are available at https://qualcomm-ai-research.github.io/PyramidalWan.