Пирамидальный Wan: О превращении предварительно обученной видео-модели в пирамидальную для эффективного вывода
PyramidalWan: On Making Pretrained Video Model Pyramidal for Efficient Inference
January 8, 2026
Авторы: Denis Korzhenkov, Adil Karjauv, Animesh Karnewar, Mohsen Ghafoorian, Amirhossein Habibian
cs.AI
Аннотация
Недавно предложенные пирамидальные модели декомпозируют стандартные процессы прямого и обратного диффузии на несколько стадий, работающих с различными разрешениями. Эти модели обрабатывают входные данные с более высокими уровнями шума на низких разрешениях, тогда как менее зашумленные входные данные обрабатываются на высоких разрешениях. Такой иерархический подход существенно снижает вычислительные затраты при выводе в многошаговых деноизирующих моделях. Однако существующие открытые пирамидальные видео-модели обучались с нуля и, как правило, уступают передовым системам по визуальной правдоподобности. В данной работе мы представляем конвейер, преобразующий предварительно обученную диффузионную модель в пирамидальную посредством недорогого дообучения, достигая этого преобразования без ухудшения качества выходных видео. Кроме того, мы исследуем и сравниваем различные стратегии дистилляции шагов в рамках пирамидальных моделей с целью дальнейшего повышения эффективности вывода. Наши результаты доступны по адресу https://qualcomm-ai-research.github.io/PyramidalWan.
English
Recently proposed pyramidal models decompose the conventional forward and backward diffusion processes into multiple stages operating at varying resolutions. These models handle inputs with higher noise levels at lower resolutions, while less noisy inputs are processed at higher resolutions. This hierarchical approach significantly reduces the computational cost of inference in multi-step denoising models. However, existing open-source pyramidal video models have been trained from scratch and tend to underperform compared to state-of-the-art systems in terms of visual plausibility. In this work, we present a pipeline that converts a pretrained diffusion model into a pyramidal one through low-cost finetuning, achieving this transformation without degradation in quality of output videos. Furthermore, we investigate and compare various strategies for step distillation within pyramidal models, aiming to further enhance the inference efficiency. Our results are available at https://qualcomm-ai-research.github.io/PyramidalWan.