INVE: Interaktive neuronale Videobearbeitung
INVE: Interactive Neural Video Editing
July 15, 2023
Autoren: Jiahui Huang, Leonid Sigal, Kwang Moo Yi, Oliver Wang, Joon-Young Lee
cs.AI
Zusammenfassung
Wir präsentieren Interactive Neural Video Editing (INVE), eine Echtzeit-Videobearbeitungslösung, die den Videobearbeitungsprozess unterstützt, indem sie spärliche Bearbeitungen einzelner Frames konsistent auf den gesamten Videoclip überträgt. Unsere Methode ist von den jüngsten Arbeiten zum Layered Neural Atlas (LNA) inspiriert. LNA leidet jedoch unter zwei wesentlichen Nachteilen: (1) die Methode ist für interaktive Bearbeitungen zu langsam, und (2) sie bietet unzureichende Unterstützung für bestimmte Bearbeitungsszenarien, einschließlich der direkten Frame-Bearbeitung und der starren Texturverfolgung. Um diese Herausforderungen zu bewältigen, nutzen und adaptieren wir hocheffiziente Netzwerkarchitekturen, die durch Hash-Grid-Encodings angetrieben werden, um die Verarbeitungsgeschwindigkeit erheblich zu verbessern. Zusätzlich lernen wir bidirektionale Funktionen zwischen Bild-Atlas und führen vektorisierte Bearbeitungen ein, was gemeinsam eine viel größere Vielfalt von Bearbeitungen sowohl im Atlas als auch direkt in den Frames ermöglicht. Im Vergleich zu LNA reduziert unser INVE die Lern- und Inferenzzeit um den Faktor 5 und unterstützt verschiedene Videobearbeitungsoperationen, die LNA nicht kann. Wir demonstrieren die Überlegenheit von INVE gegenüber LNA in der interaktiven Videobearbeitung durch eine umfassende quantitative und qualitative Analyse, die seine zahlreichen Vorteile und verbesserte Leistung hervorhebt. Für Videoresultate besuchen Sie bitte https://gabriel-huang.github.io/inve/.
English
We present Interactive Neural Video Editing (INVE), a real-time video editing
solution, which can assist the video editing process by consistently
propagating sparse frame edits to the entire video clip. Our method is inspired
by the recent work on Layered Neural Atlas (LNA). LNA, however, suffers from
two major drawbacks: (1) the method is too slow for interactive editing, and
(2) it offers insufficient support for some editing use cases, including direct
frame editing and rigid texture tracking. To address these challenges we
leverage and adopt highly efficient network architectures, powered by
hash-grids encoding, to substantially improve processing speed. In addition, we
learn bi-directional functions between image-atlas and introduce vectorized
editing, which collectively enables a much greater variety of edits in both the
atlas and the frames directly. Compared to LNA, our INVE reduces the learning
and inference time by a factor of 5, and supports various video editing
operations that LNA cannot. We showcase the superiority of INVE over LNA in
interactive video editing through a comprehensive quantitative and qualitative
analysis, highlighting its numerous advantages and improved performance. For
video results, please see https://gabriel-huang.github.io/inve/