Difusão de Vídeo Móvel
Mobile Video Diffusion
December 10, 2024
Autores: Haitam Ben Yahia, Denis Korzhenkov, Ioannis Lelekas, Amir Ghodrati, Amirhossein Habibian
cs.AI
Resumo
Os modelos de difusão de vídeo alcançaram um realismo e controlabilidade impressionantes, mas são limitados por altas demandas computacionais, restringindo seu uso em dispositivos móveis. Este artigo apresenta o primeiro modelo de difusão de vídeo otimizado para dispositivos móveis. Partindo de um UNet espaço-temporal do Stable Video Diffusion (SVD), reduzimos a memória e o custo computacional diminuindo a resolução dos quadros, incorporando representações temporais multi-escala e introduzindo dois novos esquemas de poda para reduzir o número de canais e blocos temporais. Além disso, empregamos o ajuste adversarial para reduzir a remoção de ruído para um único passo. Nosso modelo, denominado MobileVD, é 523 vezes mais eficiente (1817,2 vs. 4,34 TFLOPs) com uma leve queda na qualidade (FVD 149 vs. 171), gerando latentes para um clipe de 14x512x256 px em 1,7 segundos em um Xiaomi-14 Pro. Nossos resultados estão disponíveis em https://qualcomm-ai-research.github.io/mobile-video-diffusion/
English
Video diffusion models have achieved impressive realism and controllability
but are limited by high computational demands, restricting their use on mobile
devices. This paper introduces the first mobile-optimized video diffusion
model. Starting from a spatio-temporal UNet from Stable Video Diffusion (SVD),
we reduce memory and computational cost by reducing the frame resolution,
incorporating multi-scale temporal representations, and introducing two novel
pruning schema to reduce the number of channels and temporal blocks.
Furthermore, we employ adversarial finetuning to reduce the denoising to a
single step. Our model, coined as MobileVD, is 523x more efficient (1817.2 vs.
4.34 TFLOPs) with a slight quality drop (FVD 149 vs. 171), generating latents
for a 14x512x256 px clip in 1.7 seconds on a Xiaomi-14 Pro. Our results are
available at https://qualcomm-ai-research.github.io/mobile-video-diffusion/Summary
AI-Generated Summary