ChatPaper.aiChatPaper

Mobile Videoverbreitung

Mobile Video Diffusion

December 10, 2024
Autoren: Haitam Ben Yahia, Denis Korzhenkov, Ioannis Lelekas, Amir Ghodrati, Amirhossein Habibian
cs.AI

Zusammenfassung

Videodiffusionsmodelle haben beeindruckenden Realismus und Steuerbarkeit erreicht, sind jedoch durch hohe Rechenanforderungen eingeschränkt, was ihre Verwendung auf mobilen Geräten begrenzt. Dieses Papier stellt das erste für Mobilgeräte optimierte Videodiffusionsmodell vor. Ausgehend von einem spatio-temporalen UNet aus dem Stable Video Diffusion (SVD) reduzieren wir den Speicherbedarf und die Rechenkosten, indem wir die Bildauflösung reduzieren, mehrskalige zeitliche Repräsentationen integrieren und zwei neuartige Beschneidungsschemata einführen, um die Anzahl der Kanäle und zeitlichen Blöcke zu reduzieren. Darüber hinaus setzen wir adversariales Feintuning ein, um die Rauschunterdrückung auf einen einzigen Schritt zu reduzieren. Unser Modell, genannt MobileVD, ist um den Faktor 523 effizienter (1817,2 vs. 4,34 TFLOPs) mit einem leichten Qualitätsverlust (FVD 149 vs. 171), wobei es Latente für einen 14x512x256 px Clip in 1,7 Sekunden auf einem Xiaomi-14 Pro generiert. Unsere Ergebnisse sind unter https://qualcomm-ai-research.github.io/mobile-video-diffusion/ verfügbar.
English
Video diffusion models have achieved impressive realism and controllability but are limited by high computational demands, restricting their use on mobile devices. This paper introduces the first mobile-optimized video diffusion model. Starting from a spatio-temporal UNet from Stable Video Diffusion (SVD), we reduce memory and computational cost by reducing the frame resolution, incorporating multi-scale temporal representations, and introducing two novel pruning schema to reduce the number of channels and temporal blocks. Furthermore, we employ adversarial finetuning to reduce the denoising to a single step. Our model, coined as MobileVD, is 523x more efficient (1817.2 vs. 4.34 TFLOPs) with a slight quality drop (FVD 149 vs. 171), generating latents for a 14x512x256 px clip in 1.7 seconds on a Xiaomi-14 Pro. Our results are available at https://qualcomm-ai-research.github.io/mobile-video-diffusion/

Summary

AI-Generated Summary

PDF202December 11, 2024