INVE: Interactieve Neurale Videobewerking
INVE: Interactive Neural Video Editing
July 15, 2023
Auteurs: Jiahui Huang, Leonid Sigal, Kwang Moo Yi, Oliver Wang, Joon-Young Lee
cs.AI
Samenvatting
We presenteren Interactive Neural Video Editing (INVE), een real-time video-editingoplossing die het video-editingproces kan ondersteunen door spaarzame frame-edits consistent door te voeren naar de gehele videoclip. Onze methode is geïnspireerd door recent werk over Layered Neural Atlas (LNA). LNA heeft echter twee grote nadelen: (1) de methode is te traag voor interactief editing, en (2) het biedt onvoldoende ondersteuning voor sommige editing-use cases, waaronder direct frame-editing en rigide textuurvolging. Om deze uitdagingen aan te pakken, maken we gebruik van en passen we zeer efficiënte netwerkarchitecturen toe, aangedreven door hash-grids-codering, om de verwerkingssnelheid aanzienlijk te verbeteren. Daarnaast leren we bidirectionele functies tussen beeld-atlas en introduceren we vectorized editing, wat gezamenlijk een veel grotere verscheidenheid aan edits mogelijk maakt, zowel in de atlas als direct in de frames. Vergeleken met LNA reduceert onze INVE de leer- en inferentietijd met een factor 5 en ondersteunt het diverse video-editingbewerkingen die LNA niet kan. We tonen de superioriteit van INVE ten opzichte van LNA in interactief video-editing aan door middel van een uitgebreide kwantitatieve en kwalitatieve analyse, waarbij we de talrijke voordelen en verbeterde prestaties benadrukken. Voor videoresultaten, zie https://gabriel-huang.github.io/inve/.
English
We present Interactive Neural Video Editing (INVE), a real-time video editing
solution, which can assist the video editing process by consistently
propagating sparse frame edits to the entire video clip. Our method is inspired
by the recent work on Layered Neural Atlas (LNA). LNA, however, suffers from
two major drawbacks: (1) the method is too slow for interactive editing, and
(2) it offers insufficient support for some editing use cases, including direct
frame editing and rigid texture tracking. To address these challenges we
leverage and adopt highly efficient network architectures, powered by
hash-grids encoding, to substantially improve processing speed. In addition, we
learn bi-directional functions between image-atlas and introduce vectorized
editing, which collectively enables a much greater variety of edits in both the
atlas and the frames directly. Compared to LNA, our INVE reduces the learning
and inference time by a factor of 5, and supports various video editing
operations that LNA cannot. We showcase the superiority of INVE over LNA in
interactive video editing through a comprehensive quantitative and qualitative
analysis, highlighting its numerous advantages and improved performance. For
video results, please see https://gabriel-huang.github.io/inve/