ChatPaper.aiChatPaper

MoViE: Difusión Móvil para Edición de Video

MoViE: Mobile Diffusion for Video Editing

December 9, 2024
Autores: Adil Karjauv, Noor Fathima, Ioannis Lelekas, Fatih Porikli, Amir Ghodrati, Amirhossein Habibian
cs.AI

Resumen

Los avances recientes en la edición de video basada en difusión han mostrado un notable potencial para aplicaciones prácticas. Sin embargo, estos métodos siguen siendo prohibitivamente costosos y desafiantes de implementar en dispositivos móviles. En este estudio, presentamos una serie de optimizaciones que hacen posible la edición de video en dispositivos móviles. Basándonos en el modelo existente de edición de imágenes, primero optimizamos su arquitectura e incorporamos un autoencoder ligero. Posteriormente, extendemos la destilación de guía sin clasificador a múltiples modalidades, lo que resulta en una aceleración en el dispositivo de tres veces. Finalmente, reducimos el número de pasos de muestreo a uno mediante la introducción de un novedoso esquema de destilación adversarial que preserva la controlabilidad del proceso de edición. En conjunto, estas optimizaciones permiten la edición de video a 12 cuadros por segundo en dispositivos móviles, manteniendo una alta calidad. Nuestros resultados están disponibles en https://qualcomm-ai-research.github.io/mobile-video-editing/
English
Recent progress in diffusion-based video editing has shown remarkable potential for practical applications. However, these methods remain prohibitively expensive and challenging to deploy on mobile devices. In this study, we introduce a series of optimizations that render mobile video editing feasible. Building upon the existing image editing model, we first optimize its architecture and incorporate a lightweight autoencoder. Subsequently, we extend classifier-free guidance distillation to multiple modalities, resulting in a threefold on-device speedup. Finally, we reduce the number of sampling steps to one by introducing a novel adversarial distillation scheme which preserves the controllability of the editing process. Collectively, these optimizations enable video editing at 12 frames per second on mobile devices, while maintaining high quality. Our results are available at https://qualcomm-ai-research.github.io/mobile-video-editing/

Summary

AI-Generated Summary

PDF182December 11, 2024