MoViE: モバイルビデオ編集のためのディフュージョン
MoViE: Mobile Diffusion for Video Editing
December 9, 2024
著者: Adil Karjauv, Noor Fathima, Ioannis Lelekas, Fatih Porikli, Amir Ghodrati, Amirhossein Habibian
cs.AI
要旨
最近の拡散ベースのビデオ編集の進歩は、実用的な応用に顕著な潜在能力を示しています。しかし、これらの手法は、モバイルデバイスでの展開が高コストであり、困難であるという課題が残っています。本研究では、モバイルビデオ編集を実現するための一連の最適化手法を紹介します。既存の画像編集モデルをベースにして、まずそのアーキテクチャを最適化し、軽量なオートエンコーダを組み込みます。その後、クラシファイアを使用しないガイダンス蒸留を複数のモダリティに拡張し、デバイス上での処理速度を3倍に向上させます。最後に、編集プロセスの操作性を保持する新しい敵対的蒸留スキームを導入することで、サンプリングステップの数を1に削減します。これらの最適化により、モバイルデバイス上で12フレーム/秒のビデオ編集が可能となり、高品質を維持します。当社の結果は、https://qualcomm-ai-research.github.io/mobile-video-editing/ でご覧いただけます。
English
Recent progress in diffusion-based video editing has shown remarkable
potential for practical applications. However, these methods remain
prohibitively expensive and challenging to deploy on mobile devices. In this
study, we introduce a series of optimizations that render mobile video editing
feasible. Building upon the existing image editing model, we first optimize its
architecture and incorporate a lightweight autoencoder. Subsequently, we extend
classifier-free guidance distillation to multiple modalities, resulting in a
threefold on-device speedup. Finally, we reduce the number of sampling steps to
one by introducing a novel adversarial distillation scheme which preserves the
controllability of the editing process. Collectively, these optimizations
enable video editing at 12 frames per second on mobile devices, while
maintaining high quality. Our results are available at
https://qualcomm-ai-research.github.io/mobile-video-editing/Summary
AI-Generated Summary