MoViE: Mobile Diffusion für die Videobearbeitung
MoViE: Mobile Diffusion for Video Editing
December 9, 2024
Autoren: Adil Karjauv, Noor Fathima, Ioannis Lelekas, Fatih Porikli, Amir Ghodrati, Amirhossein Habibian
cs.AI
Zusammenfassung
In jüngster Zeit hat der Fortschritt in der diffusionsbasierten Videobearbeitung ein bemerkenswertes Potenzial für praktische Anwendungen gezeigt. Diese Methoden sind jedoch nach wie vor prohibitiv teuer und herausfordernd in der Anwendung auf mobilen Geräten. In dieser Studie stellen wir eine Reihe von Optimierungen vor, die die mobile Videobearbeitung realisierbar machen. Aufbauend auf dem bestehenden Bildbearbeitungsmodell optimieren wir zunächst dessen Architektur und integrieren einen leichten Autoencoder. Anschließend erweitern wir die klassenlose Leitfadenverdichtung auf mehrere Modalitäten, was zu einer dreifachen Beschleunigung auf dem Gerät führt. Schließlich reduzieren wir die Anzahl der Abtastschritte auf eins, indem wir ein neuartiges adverses Verdichtungsschema einführen, das die Steuerbarkeit des Bearbeitungsprozesses bewahrt. Insgesamt ermöglichen diese Optimierungen eine Videobearbeitung mit 12 Bildern pro Sekunde auf mobilen Geräten bei gleichbleibend hoher Qualität. Unsere Ergebnisse sind unter https://qualcomm-ai-research.github.io/mobile-video-editing/ verfügbar.
English
Recent progress in diffusion-based video editing has shown remarkable
potential for practical applications. However, these methods remain
prohibitively expensive and challenging to deploy on mobile devices. In this
study, we introduce a series of optimizations that render mobile video editing
feasible. Building upon the existing image editing model, we first optimize its
architecture and incorporate a lightweight autoencoder. Subsequently, we extend
classifier-free guidance distillation to multiple modalities, resulting in a
threefold on-device speedup. Finally, we reduce the number of sampling steps to
one by introducing a novel adversarial distillation scheme which preserves the
controllability of the editing process. Collectively, these optimizations
enable video editing at 12 frames per second on mobile devices, while
maintaining high quality. Our results are available at
https://qualcomm-ai-research.github.io/mobile-video-editing/Summary
AI-Generated Summary