ChatPaper.aiChatPaper

モバイルビデオ拡散

Mobile Video Diffusion

December 10, 2024
著者: Haitam Ben Yahia, Denis Korzhenkov, Ioannis Lelekas, Amir Ghodrati, Amirhossein Habibian
cs.AI

要旨

ビデオ拡散モデルは印象的なリアリズムと制御可能性を達成していますが、高い計算要求によって制限されており、モバイルデバイスでの使用が制限されています。本論文では、最初のモバイル最適化ビデオ拡散モデルを紹介します。Stable Video Diffusion(SVD)からの時空間UNetを出発点とし、フレーム解像度を低下させ、多スケールの時空間表現を組み込み、チャネル数と時空間ブロックの数を削減するための2つの新しいプルーニングスキーマを導入します。さらに、敵対的なファインチューニングを使用して、ノイズ除去を単一のステップに削減します。当社のMobileVDと名付けられたモデルは、わずかな品質低下(FVD 149対171)で523倍効率的(1817.2対4.34 TFLOPs)であり、Xiaomi-14 Pro上で14x512x256 pxのクリップのラテントを1.7秒で生成します。当社の結果は、https://qualcomm-ai-research.github.io/mobile-video-diffusion/ で入手可能です。
English
Video diffusion models have achieved impressive realism and controllability but are limited by high computational demands, restricting their use on mobile devices. This paper introduces the first mobile-optimized video diffusion model. Starting from a spatio-temporal UNet from Stable Video Diffusion (SVD), we reduce memory and computational cost by reducing the frame resolution, incorporating multi-scale temporal representations, and introducing two novel pruning schema to reduce the number of channels and temporal blocks. Furthermore, we employ adversarial finetuning to reduce the denoising to a single step. Our model, coined as MobileVD, is 523x more efficient (1817.2 vs. 4.34 TFLOPs) with a slight quality drop (FVD 149 vs. 171), generating latents for a 14x512x256 px clip in 1.7 seconds on a Xiaomi-14 Pro. Our results are available at https://qualcomm-ai-research.github.io/mobile-video-diffusion/

Summary

AI-Generated Summary

PDF202December 11, 2024