INVE: Interaktive neuronale Videobearbeitung

Zusammenfassung

Wir präsentieren Interactive Neural Video Editing (INVE), eine Echtzeit-Videobearbeitungslösung, die den Videobearbeitungsprozess unterstützt, indem sie spärliche Bearbeitungen einzelner Frames konsistent auf den gesamten Videoclip überträgt. Unsere Methode ist von den jüngsten Arbeiten zum Layered Neural Atlas (LNA) inspiriert. LNA leidet jedoch unter zwei wesentlichen Nachteilen: (1) die Methode ist für interaktive Bearbeitungen zu langsam, und (2) sie bietet unzureichende Unterstützung für bestimmte Bearbeitungsszenarien, einschließlich der direkten Frame-Bearbeitung und der starren Texturverfolgung. Um diese Herausforderungen zu bewältigen, nutzen und adaptieren wir hocheffiziente Netzwerkarchitekturen, die durch Hash-Grid-Encodings angetrieben werden, um die Verarbeitungsgeschwindigkeit erheblich zu verbessern. Zusätzlich lernen wir bidirektionale Funktionen zwischen Bild-Atlas und führen vektorisierte Bearbeitungen ein, was gemeinsam eine viel größere Vielfalt von Bearbeitungen sowohl im Atlas als auch direkt in den Frames ermöglicht. Im Vergleich zu LNA reduziert unser INVE die Lern- und Inferenzzeit um den Faktor 5 und unterstützt verschiedene Videobearbeitungsoperationen, die LNA nicht kann. Wir demonstrieren die Überlegenheit von INVE gegenüber LNA in der interaktiven Videobearbeitung durch eine umfassende quantitative und qualitative Analyse, die seine zahlreichen Vorteile und verbesserte Leistung hervorhebt. Für Videoresultate besuchen Sie bitte https://gabriel-huang.github.io/inve/.

English

We present Interactive Neural Video Editing (INVE), a real-time video editing solution, which can assist the video editing process by consistently propagating sparse frame edits to the entire video clip. Our method is inspired by the recent work on Layered Neural Atlas (LNA). LNA, however, suffers from two major drawbacks: (1) the method is too slow for interactive editing, and (2) it offers insufficient support for some editing use cases, including direct frame editing and rigid texture tracking. To address these challenges we leverage and adopt highly efficient network architectures, powered by hash-grids encoding, to substantially improve processing speed. In addition, we learn bi-directional functions between image-atlas and introduce vectorized editing, which collectively enables a much greater variety of edits in both the atlas and the frames directly. Compared to LNA, our INVE reduces the learning and inference time by a factor of 5, and supports various video editing operations that LNA cannot. We showcase the superiority of INVE over LNA in interactive video editing through a comprehensive quantitative and qualitative analysis, highlighting its numerous advantages and improved performance. For video results, please see https://gabriel-huang.github.io/inve/

INVE: Interaktive neuronale Videobearbeitung

INVE: Interactive Neural Video Editing

Zusammenfassung

Support