ChatPaper.aiChatPaper

MoViE: Mobile Diffusion für die Videobearbeitung

MoViE: Mobile Diffusion for Video Editing

December 9, 2024
Autoren: Adil Karjauv, Noor Fathima, Ioannis Lelekas, Fatih Porikli, Amir Ghodrati, Amirhossein Habibian
cs.AI

Zusammenfassung

In jüngster Zeit hat der Fortschritt in der diffusionsbasierten Videobearbeitung ein bemerkenswertes Potenzial für praktische Anwendungen gezeigt. Diese Methoden sind jedoch nach wie vor prohibitiv teuer und herausfordernd in der Anwendung auf mobilen Geräten. In dieser Studie stellen wir eine Reihe von Optimierungen vor, die die mobile Videobearbeitung realisierbar machen. Aufbauend auf dem bestehenden Bildbearbeitungsmodell optimieren wir zunächst dessen Architektur und integrieren einen leichten Autoencoder. Anschließend erweitern wir die klassenlose Leitfadenverdichtung auf mehrere Modalitäten, was zu einer dreifachen Beschleunigung auf dem Gerät führt. Schließlich reduzieren wir die Anzahl der Abtastschritte auf eins, indem wir ein neuartiges adverses Verdichtungsschema einführen, das die Steuerbarkeit des Bearbeitungsprozesses bewahrt. Insgesamt ermöglichen diese Optimierungen eine Videobearbeitung mit 12 Bildern pro Sekunde auf mobilen Geräten bei gleichbleibend hoher Qualität. Unsere Ergebnisse sind unter https://qualcomm-ai-research.github.io/mobile-video-editing/ verfügbar.
English
Recent progress in diffusion-based video editing has shown remarkable potential for practical applications. However, these methods remain prohibitively expensive and challenging to deploy on mobile devices. In this study, we introduce a series of optimizations that render mobile video editing feasible. Building upon the existing image editing model, we first optimize its architecture and incorporate a lightweight autoencoder. Subsequently, we extend classifier-free guidance distillation to multiple modalities, resulting in a threefold on-device speedup. Finally, we reduce the number of sampling steps to one by introducing a novel adversarial distillation scheme which preserves the controllability of the editing process. Collectively, these optimizations enable video editing at 12 frames per second on mobile devices, while maintaining high quality. Our results are available at https://qualcomm-ai-research.github.io/mobile-video-editing/

Summary

AI-Generated Summary

PDF182December 11, 2024