Diffusion Vidéo Mobile

Résumé

Les modèles de diffusion vidéo ont atteint un réalisme impressionnant et une contrôlabilité, mais sont limités par des exigences computationnelles élevées, restreignant leur utilisation sur les appareils mobiles. Cet article présente le premier modèle de diffusion vidéo optimisé pour les appareils mobiles. À partir d'un UNet spatio-temporel de la diffusion vidéo stable (SVD), nous réduisons la mémoire et le coût computationnel en diminuant la résolution des images, en incorporant des représentations temporelles multi-échelles, et en introduisant deux nouveaux schémas de taille pour réduire le nombre de canaux et de blocs temporels. De plus, nous utilisons un affinage adversarial pour réduire le débruitage à une seule étape. Notre modèle, nommé MobileVD, est 523 fois plus efficace (1817,2 contre 4,34 TFLOPs) avec une légère baisse de qualité (FVD 149 contre 171), générant des latents pour un clip de 14x512x256 px en 1,7 seconde sur un Xiaomi-14 Pro. Nos résultats sont disponibles sur https://qualcomm-ai-research.github.io/mobile-video-diffusion/

English

Video diffusion models have achieved impressive realism and controllability but are limited by high computational demands, restricting their use on mobile devices. This paper introduces the first mobile-optimized video diffusion model. Starting from a spatio-temporal UNet from Stable Video Diffusion (SVD), we reduce memory and computational cost by reducing the frame resolution, incorporating multi-scale temporal representations, and introducing two novel pruning schema to reduce the number of channels and temporal blocks. Furthermore, we employ adversarial finetuning to reduce the denoising to a single step. Our model, coined as MobileVD, is 523x more efficient (1817.2 vs. 4.34 TFLOPs) with a slight quality drop (FVD 149 vs. 171), generating latents for a 14x512x256 px clip in 1.7 seconds on a Xiaomi-14 Pro. Our results are available at https://qualcomm-ai-research.github.io/mobile-video-diffusion/