ChatPaper.aiChatPaper

Mobiele videoverspreiding

Mobile Video Diffusion

December 10, 2024
Auteurs: Haitam Ben Yahia, Denis Korzhenkov, Ioannis Lelekas, Amir Ghodrati, Amirhossein Habibian
cs.AI

Samenvatting

Videodiffusiemodellen hebben indrukwekkend realisme en controleerbaarheid bereikt, maar worden beperkt door hoge rekenvereisten, waardoor hun gebruik op mobiele apparaten beperkt is. Dit artikel introduceert het eerste mobiel-geoptimaliseerde videodiffusiemodel. Vertrekkend van een spatio-temporele UNet van Stable Video Diffusion (SVD), verminderen we het geheugen- en rekenkosten door de frameresolutie te verlagen, multi-schaal temporele representaties op te nemen, en twee nieuwe snoeischema's te introduceren om het aantal kanalen en temporele blokken te verminderen. Bovendien passen we vijandige fine-tuning toe om het denoising tot een enkele stap te reduceren. Ons model, genaamd MobileVD, is 523x efficiënter (1817,2 vs. 4,34 TFLOPs) met een lichte kwaliteitsdaling (FVD 149 vs. 171), waarbij latenties worden gegenereerd voor een 14x512x256 px clip in 1,7 seconden op een Xiaomi-14 Pro. Onze resultaten zijn beschikbaar op https://qualcomm-ai-research.github.io/mobile-video-diffusion/
English
Video diffusion models have achieved impressive realism and controllability but are limited by high computational demands, restricting their use on mobile devices. This paper introduces the first mobile-optimized video diffusion model. Starting from a spatio-temporal UNet from Stable Video Diffusion (SVD), we reduce memory and computational cost by reducing the frame resolution, incorporating multi-scale temporal representations, and introducing two novel pruning schema to reduce the number of channels and temporal blocks. Furthermore, we employ adversarial finetuning to reduce the denoising to a single step. Our model, coined as MobileVD, is 523x more efficient (1817.2 vs. 4.34 TFLOPs) with a slight quality drop (FVD 149 vs. 171), generating latents for a 14x512x256 px clip in 1.7 seconds on a Xiaomi-14 Pro. Our results are available at https://qualcomm-ai-research.github.io/mobile-video-diffusion/
PDF202December 11, 2024