MoViE: Difusão Móvel para Edição de Vídeo
MoViE: Mobile Diffusion for Video Editing
December 9, 2024
Autores: Adil Karjauv, Noor Fathima, Ioannis Lelekas, Fatih Porikli, Amir Ghodrati, Amirhossein Habibian
cs.AI
Resumo
Os avanços recentes na edição de vídeo baseada em difusão têm mostrado um potencial notável para aplicações práticas. No entanto, esses métodos continuam sendo caros e desafiadores de implementar em dispositivos móveis. Neste estudo, introduzimos uma série de otimizações que tornam a edição de vídeo em dispositivos móveis viável. Construindo sobre o modelo existente de edição de imagem, otimizamos primeiramente sua arquitetura e incorporamos um autoencoder leve. Em seguida, estendemos a destilação de orientação sem classificador para múltiplas modalidades, resultando em um aumento de velocidade no dispositivo de três vezes. Por fim, reduzimos o número de etapas de amostragem para uma ao introduzir um novo esquema de destilação adversarial que preserva a controlabilidade do processo de edição. Coletivamente, essas otimizações possibilitam a edição de vídeo a 12 quadros por segundo em dispositivos móveis, mantendo alta qualidade. Nossos resultados estão disponíveis em https://qualcomm-ai-research.github.io/mobile-video-editing/
English
Recent progress in diffusion-based video editing has shown remarkable
potential for practical applications. However, these methods remain
prohibitively expensive and challenging to deploy on mobile devices. In this
study, we introduce a series of optimizations that render mobile video editing
feasible. Building upon the existing image editing model, we first optimize its
architecture and incorporate a lightweight autoencoder. Subsequently, we extend
classifier-free guidance distillation to multiple modalities, resulting in a
threefold on-device speedup. Finally, we reduce the number of sampling steps to
one by introducing a novel adversarial distillation scheme which preserves the
controllability of the editing process. Collectively, these optimizations
enable video editing at 12 frames per second on mobile devices, while
maintaining high quality. Our results are available at
https://qualcomm-ai-research.github.io/mobile-video-editing/Summary
AI-Generated Summary