Распространение видео на мобильных устройствах
Mobile Video Diffusion
December 10, 2024
Авторы: Haitam Ben Yahia, Denis Korzhenkov, Ioannis Lelekas, Amir Ghodrati, Amirhossein Habibian
cs.AI
Аннотация
Модели видеодиффузии достигли впечатляющей реалистичности и управляемости, но ограничены высокими вычислительными требованиями, что ограничивает их использование на мобильных устройствах. В данной статье представлена первая оптимизированная для мобильных устройств модель видеодиффузии. Начиная с пространственно-временной сети UNet из Stable Video Diffusion (SVD), мы снизили объем памяти и вычислительные затраты путем уменьшения разрешения кадра, внедрения многомасштабных временных представлений и введения двух новых схем обрезки для уменьшения количества каналов и временных блоков. Кроме того, мы используем адверсарное донастройку для сведения шумоподавления к одному шагу. Наша модель, названная MobileVD, работает в 523 раза эффективнее (1817,2 против 4,34 TFLOPs) с незначительным снижением качества (FVD 149 против 171), генерируя латенты для клипа размером 14x512x256 пикселей за 1,7 секунды на устройстве Xiaomi-14 Pro. Наши результаты доступны по адресу https://qualcomm-ai-research.github.io/mobile-video-diffusion/
English
Video diffusion models have achieved impressive realism and controllability
but are limited by high computational demands, restricting their use on mobile
devices. This paper introduces the first mobile-optimized video diffusion
model. Starting from a spatio-temporal UNet from Stable Video Diffusion (SVD),
we reduce memory and computational cost by reducing the frame resolution,
incorporating multi-scale temporal representations, and introducing two novel
pruning schema to reduce the number of channels and temporal blocks.
Furthermore, we employ adversarial finetuning to reduce the denoising to a
single step. Our model, coined as MobileVD, is 523x more efficient (1817.2 vs.
4.34 TFLOPs) with a slight quality drop (FVD 149 vs. 171), generating latents
for a 14x512x256 px clip in 1.7 seconds on a Xiaomi-14 Pro. Our results are
available at https://qualcomm-ai-research.github.io/mobile-video-diffusion/Summary
AI-Generated Summary