ChatPaper.aiChatPaper

PyramidalWan: 효율적인 추론을 위한 사전 학습된 비디오 모델의 피라미드 구조화

PyramidalWan: On Making Pretrained Video Model Pyramidal for Efficient Inference

January 8, 2026
저자: Denis Korzhenkov, Adil Karjauv, Animesh Karnewar, Mohsen Ghafoorian, Amirhossein Habibian
cs.AI

초록

최근 제안된 피라미드 모델은 기존의 순방향 및 역방향 확산 과정을 다양한 해상도에서 작동하는 여러 단계로 분해합니다. 이러한 모델은 더 높은 노이즈 수준을 가진 입력은 낮은 해상도에서 처리하고, 노이즈가 적은 입력은 높은 해상도에서 처리합니다. 이러한 계층적 접근 방식은 다단계 노이즈 제거 모델의 추론 계산 비용을 크게 절감합니다. 그러나 기존 오픈소스 피라미드 비디오 모델은 처음부터 학습되어 왔으며, 시각적 타당성 측면에서 최첨단 시스템에 비해 성능이 낮은 경향이 있습니다. 본 연구에서는 사전 학습된 확산 모델을 저비용 미세 조정을 통해 피라미드 모델로 변환하는 파이프라인을 제시하며, 출력 비디오의 품질 저하 없이 이 변환을 달성합니다. 더 나아가 추론 효율을 추가로 향상시키기 위해 피라미드 모델 내에서 다양한 단계 증류 전략을 탐구하고 비교합니다. 우리의 결과는 https://qualcomm-ai-research.github.io/PyramidalWan에서 확인할 수 있습니다.
English
Recently proposed pyramidal models decompose the conventional forward and backward diffusion processes into multiple stages operating at varying resolutions. These models handle inputs with higher noise levels at lower resolutions, while less noisy inputs are processed at higher resolutions. This hierarchical approach significantly reduces the computational cost of inference in multi-step denoising models. However, existing open-source pyramidal video models have been trained from scratch and tend to underperform compared to state-of-the-art systems in terms of visual plausibility. In this work, we present a pipeline that converts a pretrained diffusion model into a pyramidal one through low-cost finetuning, achieving this transformation without degradation in quality of output videos. Furthermore, we investigate and compare various strategies for step distillation within pyramidal models, aiming to further enhance the inference efficiency. Our results are available at https://qualcomm-ai-research.github.io/PyramidalWan.
PDF11January 10, 2026