ChatPaper.aiChatPaper

PyramidalWan: Hacia la Conversión de Modelos de Video Preentrenados en Piramidales para una Inferencia Eficiente

PyramidalWan: On Making Pretrained Video Model Pyramidal for Efficient Inference

January 8, 2026
Autores: Denis Korzhenkov, Adil Karjauv, Animesh Karnewar, Mohsen Ghafoorian, Amirhossein Habibian
cs.AI

Resumen

Los modelos piramidales propuestos recientemente descomponen los procesos convencionales de difusión hacia adelante y hacia atrás en múltiples etapas que operan a distintas resoluciones. Estos modelos manejan entradas con niveles de ruido más altos en resoluciones más bajas, mientras que las entradas menos ruidosas se procesan en resoluciones más altas. Este enfoque jerárquico reduce significativamente el costo computacional de la inferencia en modelos de desruido multi-etapa. Sin embargo, los modelos piramidales de video de código abierto existentes han sido entrenados desde cero y tienden a tener un rendimiento inferior en comparación con los sistemas de vanguardia en términos de plausibilidad visual. En este trabajo, presentamos un *pipeline* que convierte un modelo de difusión preentrenado en uno piramidal mediante un ajuste fino de bajo costo, logrando esta transformación sin degradación en la calidad de los videos de salida. Además, investigamos y comparamos varias estrategias de destilación de pasos dentro de modelos piramidales, con el objetivo de mejorar aún más la eficiencia de la inferencia. Nuestros resultados están disponibles en https://qualcomm-ai-research.github.io/PyramidalWan.
English
Recently proposed pyramidal models decompose the conventional forward and backward diffusion processes into multiple stages operating at varying resolutions. These models handle inputs with higher noise levels at lower resolutions, while less noisy inputs are processed at higher resolutions. This hierarchical approach significantly reduces the computational cost of inference in multi-step denoising models. However, existing open-source pyramidal video models have been trained from scratch and tend to underperform compared to state-of-the-art systems in terms of visual plausibility. In this work, we present a pipeline that converts a pretrained diffusion model into a pyramidal one through low-cost finetuning, achieving this transformation without degradation in quality of output videos. Furthermore, we investigate and compare various strategies for step distillation within pyramidal models, aiming to further enhance the inference efficiency. Our results are available at https://qualcomm-ai-research.github.io/PyramidalWan.
PDF11January 10, 2026