Difusión de Video Móvil
Mobile Video Diffusion
December 10, 2024
Autores: Haitam Ben Yahia, Denis Korzhenkov, Ioannis Lelekas, Amir Ghodrati, Amirhossein Habibian
cs.AI
Resumen
Los modelos de difusión de video han logrado un realismo y control impresionantes, pero están limitados por altas demandas computacionales, lo que restringe su uso en dispositivos móviles. Este documento presenta el primer modelo de difusión de video optimizado para dispositivos móviles. Partiendo de un UNet espacio-temporal de Difusión de Video Estable (SVD), reducimos la memoria y el costo computacional al disminuir la resolución de los fotogramas, incorporar representaciones temporales multi-escala e introducir dos nuevos esquemas de poda para reducir el número de canales y bloques temporales. Además, empleamos un ajuste adversarial para reducir el proceso de eliminación de ruido a un solo paso. Nuestro modelo, denominado MobileVD, es 523 veces más eficiente (1817.2 vs. 4.34 TFLOPs) con una ligera disminución en la calidad (FVD 149 vs. 171), generando latentes para un clip de 14x512x256 px en 1.7 segundos en un Xiaomi-14 Pro. Nuestros resultados están disponibles en https://qualcomm-ai-research.github.io/mobile-video-diffusion/
English
Video diffusion models have achieved impressive realism and controllability
but are limited by high computational demands, restricting their use on mobile
devices. This paper introduces the first mobile-optimized video diffusion
model. Starting from a spatio-temporal UNet from Stable Video Diffusion (SVD),
we reduce memory and computational cost by reducing the frame resolution,
incorporating multi-scale temporal representations, and introducing two novel
pruning schema to reduce the number of channels and temporal blocks.
Furthermore, we employ adversarial finetuning to reduce the denoising to a
single step. Our model, coined as MobileVD, is 523x more efficient (1817.2 vs.
4.34 TFLOPs) with a slight quality drop (FVD 149 vs. 171), generating latents
for a 14x512x256 px clip in 1.7 seconds on a Xiaomi-14 Pro. Our results are
available at https://qualcomm-ai-research.github.io/mobile-video-diffusion/Summary
AI-Generated Summary