Diffusion Vidéo Mobile
Mobile Video Diffusion
December 10, 2024
Auteurs: Haitam Ben Yahia, Denis Korzhenkov, Ioannis Lelekas, Amir Ghodrati, Amirhossein Habibian
cs.AI
Résumé
Les modèles de diffusion vidéo ont atteint un réalisme impressionnant et une contrôlabilité, mais sont limités par des exigences computationnelles élevées, restreignant leur utilisation sur les appareils mobiles. Cet article présente le premier modèle de diffusion vidéo optimisé pour les appareils mobiles. À partir d'un UNet spatio-temporel de la diffusion vidéo stable (SVD), nous réduisons la mémoire et le coût computationnel en diminuant la résolution des images, en incorporant des représentations temporelles multi-échelles, et en introduisant deux nouveaux schémas de taille pour réduire le nombre de canaux et de blocs temporels. De plus, nous utilisons un affinage adversarial pour réduire le débruitage à une seule étape. Notre modèle, nommé MobileVD, est 523 fois plus efficace (1817,2 contre 4,34 TFLOPs) avec une légère baisse de qualité (FVD 149 contre 171), générant des latents pour un clip de 14x512x256 px en 1,7 seconde sur un Xiaomi-14 Pro. Nos résultats sont disponibles sur https://qualcomm-ai-research.github.io/mobile-video-diffusion/
English
Video diffusion models have achieved impressive realism and controllability
but are limited by high computational demands, restricting their use on mobile
devices. This paper introduces the first mobile-optimized video diffusion
model. Starting from a spatio-temporal UNet from Stable Video Diffusion (SVD),
we reduce memory and computational cost by reducing the frame resolution,
incorporating multi-scale temporal representations, and introducing two novel
pruning schema to reduce the number of channels and temporal blocks.
Furthermore, we employ adversarial finetuning to reduce the denoising to a
single step. Our model, coined as MobileVD, is 523x more efficient (1817.2 vs.
4.34 TFLOPs) with a slight quality drop (FVD 149 vs. 171), generating latents
for a 14x512x256 px clip in 1.7 seconds on a Xiaomi-14 Pro. Our results are
available at https://qualcomm-ai-research.github.io/mobile-video-diffusion/Summary
AI-Generated Summary