MoViE: Difusión Móvil para Edición de Video
MoViE: Mobile Diffusion for Video Editing
December 9, 2024
Autores: Adil Karjauv, Noor Fathima, Ioannis Lelekas, Fatih Porikli, Amir Ghodrati, Amirhossein Habibian
cs.AI
Resumen
Los avances recientes en la edición de video basada en difusión han mostrado un notable potencial para aplicaciones prácticas. Sin embargo, estos métodos siguen siendo prohibitivamente costosos y desafiantes de implementar en dispositivos móviles. En este estudio, presentamos una serie de optimizaciones que hacen posible la edición de video en dispositivos móviles. Basándonos en el modelo existente de edición de imágenes, primero optimizamos su arquitectura e incorporamos un autoencoder ligero. Posteriormente, extendemos la destilación de guía sin clasificador a múltiples modalidades, lo que resulta en una aceleración en el dispositivo de tres veces. Finalmente, reducimos el número de pasos de muestreo a uno mediante la introducción de un novedoso esquema de destilación adversarial que preserva la controlabilidad del proceso de edición. En conjunto, estas optimizaciones permiten la edición de video a 12 cuadros por segundo en dispositivos móviles, manteniendo una alta calidad. Nuestros resultados están disponibles en https://qualcomm-ai-research.github.io/mobile-video-editing/
English
Recent progress in diffusion-based video editing has shown remarkable
potential for practical applications. However, these methods remain
prohibitively expensive and challenging to deploy on mobile devices. In this
study, we introduce a series of optimizations that render mobile video editing
feasible. Building upon the existing image editing model, we first optimize its
architecture and incorporate a lightweight autoencoder. Subsequently, we extend
classifier-free guidance distillation to multiple modalities, resulting in a
threefold on-device speedup. Finally, we reduce the number of sampling steps to
one by introducing a novel adversarial distillation scheme which preserves the
controllability of the editing process. Collectively, these optimizations
enable video editing at 12 frames per second on mobile devices, while
maintaining high quality. Our results are available at
https://qualcomm-ai-research.github.io/mobile-video-editing/Summary
AI-Generated Summary