PyramidalWan: Tornando o Modelo de Vídeo Pré-treinado Piramidal para Inferência Eficiente

Resumo

Modelos piramidais recentemente propostos decompõem os processos convencionais de difusão direta e reversa em múltiplos estágios que operam em resoluções variadas. Esses modelos processam entradas com níveis mais elevados de ruído em resoluções mais baixas, enquanto entradas menos ruidosas são processadas em resoluções mais altas. Essa abordagem hierárquica reduz significativamente o custo computacional da inferência em modelos de eliminação de ruído de múltiplas etapas. No entanto, os modelos piramidais de vídeo de código aberto existentes foram treinados do zero e tendem a ter desempenho inferior em comparação com sistemas de última geração em termos de plausibilidade visual. Neste trabalho, apresentamos um *pipeline* que converte um modelo de difusão pré-treinado em um modelo piramidal por meio de um ajuste fino de baixo custo, alcançando essa transformação sem degradação na qualidade dos vídeos gerados. Além disso, investigamos e comparamos várias estratégias de destilação de etapas em modelos piramidais, visando aprimorar ainda mais a eficiência da inferência. Nossos resultados estão disponíveis em https://qualcomm-ai-research.github.io/PyramidalWan.

English

Recently proposed pyramidal models decompose the conventional forward and backward diffusion processes into multiple stages operating at varying resolutions. These models handle inputs with higher noise levels at lower resolutions, while less noisy inputs are processed at higher resolutions. This hierarchical approach significantly reduces the computational cost of inference in multi-step denoising models. However, existing open-source pyramidal video models have been trained from scratch and tend to underperform compared to state-of-the-art systems in terms of visual plausibility. In this work, we present a pipeline that converts a pretrained diffusion model into a pyramidal one through low-cost finetuning, achieving this transformation without degradation in quality of output videos. Furthermore, we investigate and compare various strategies for step distillation within pyramidal models, aiming to further enhance the inference efficiency. Our results are available at https://qualcomm-ai-research.github.io/PyramidalWan.