ピラミッド型WAN:効率的な推論のための事前学習済みビデオモデルのピラミッド構造化
PyramidalWan: On Making Pretrained Video Model Pyramidal for Efficient Inference
January 8, 2026
著者: Denis Korzhenkov, Adil Karjauv, Animesh Karnewar, Mohsen Ghafoorian, Amirhossein Habibian
cs.AI
要旨
最近提案されたピラミッドモデルは、従来の順拡散・逆拡散プロセスを、異なる解像度で動作する複数の段階に分解する。これらのモデルは、ノイズレベルの高い入力は低解像度で処理し、ノイズの少ない入力は高解像度で処理する。この階層的アプローチにより、多段階ノイズ除去モデルにおける推論の計算コストを大幅に削減できる。しかし、既存のオープンソースのピラミッド型ビデオモデルはスクラッチから学習されており、視覚的な説得力という点で最先端のシステムに比べて性能が劣る傾向がある。本研究では、事前学習済み拡散モデルを低コストのファインチューニングによりピラミッドモデルに変換するパイプラインを提案し、出力ビデオの品質を劣化させることなくこの変換を実現する。さらに、ピラミッドモデル内でのステップ蒸留の様々な戦略を調査・比較し、推論効率のさらなる向上を目指す。結果はhttps://qualcomm-ai-research.github.io/PyramidalWanで公開されている。
English
Recently proposed pyramidal models decompose the conventional forward and backward diffusion processes into multiple stages operating at varying resolutions. These models handle inputs with higher noise levels at lower resolutions, while less noisy inputs are processed at higher resolutions. This hierarchical approach significantly reduces the computational cost of inference in multi-step denoising models. However, existing open-source pyramidal video models have been trained from scratch and tend to underperform compared to state-of-the-art systems in terms of visual plausibility. In this work, we present a pipeline that converts a pretrained diffusion model into a pyramidal one through low-cost finetuning, achieving this transformation without degradation in quality of output videos. Furthermore, we investigate and compare various strategies for step distillation within pyramidal models, aiming to further enhance the inference efficiency. Our results are available at https://qualcomm-ai-research.github.io/PyramidalWan.