ChatPaper.aiChatPaper

MoViE: Difusão Móvel para Edição de Vídeo

MoViE: Mobile Diffusion for Video Editing

December 9, 2024
Autores: Adil Karjauv, Noor Fathima, Ioannis Lelekas, Fatih Porikli, Amir Ghodrati, Amirhossein Habibian
cs.AI

Resumo

Os avanços recentes na edição de vídeo baseada em difusão têm mostrado um potencial notável para aplicações práticas. No entanto, esses métodos continuam sendo caros e desafiadores de implementar em dispositivos móveis. Neste estudo, introduzimos uma série de otimizações que tornam a edição de vídeo em dispositivos móveis viável. Construindo sobre o modelo existente de edição de imagem, otimizamos primeiramente sua arquitetura e incorporamos um autoencoder leve. Em seguida, estendemos a destilação de orientação sem classificador para múltiplas modalidades, resultando em um aumento de velocidade no dispositivo de três vezes. Por fim, reduzimos o número de etapas de amostragem para uma ao introduzir um novo esquema de destilação adversarial que preserva a controlabilidade do processo de edição. Coletivamente, essas otimizações possibilitam a edição de vídeo a 12 quadros por segundo em dispositivos móveis, mantendo alta qualidade. Nossos resultados estão disponíveis em https://qualcomm-ai-research.github.io/mobile-video-editing/
English
Recent progress in diffusion-based video editing has shown remarkable potential for practical applications. However, these methods remain prohibitively expensive and challenging to deploy on mobile devices. In this study, we introduce a series of optimizations that render mobile video editing feasible. Building upon the existing image editing model, we first optimize its architecture and incorporate a lightweight autoencoder. Subsequently, we extend classifier-free guidance distillation to multiple modalities, resulting in a threefold on-device speedup. Finally, we reduce the number of sampling steps to one by introducing a novel adversarial distillation scheme which preserves the controllability of the editing process. Collectively, these optimizations enable video editing at 12 frames per second on mobile devices, while maintaining high quality. Our results are available at https://qualcomm-ai-research.github.io/mobile-video-editing/

Summary

AI-Generated Summary

PDF182December 11, 2024