INVE: Interactieve Neurale Videobewerking

Samenvatting

We presenteren Interactive Neural Video Editing (INVE), een real-time video-editingoplossing die het video-editingproces kan ondersteunen door spaarzame frame-edits consistent door te voeren naar de gehele videoclip. Onze methode is geïnspireerd door recent werk over Layered Neural Atlas (LNA). LNA heeft echter twee grote nadelen: (1) de methode is te traag voor interactief editing, en (2) het biedt onvoldoende ondersteuning voor sommige editing-use cases, waaronder direct frame-editing en rigide textuurvolging. Om deze uitdagingen aan te pakken, maken we gebruik van en passen we zeer efficiënte netwerkarchitecturen toe, aangedreven door hash-grids-codering, om de verwerkingssnelheid aanzienlijk te verbeteren. Daarnaast leren we bidirectionele functies tussen beeld-atlas en introduceren we vectorized editing, wat gezamenlijk een veel grotere verscheidenheid aan edits mogelijk maakt, zowel in de atlas als direct in de frames. Vergeleken met LNA reduceert onze INVE de leer- en inferentietijd met een factor 5 en ondersteunt het diverse video-editingbewerkingen die LNA niet kan. We tonen de superioriteit van INVE ten opzichte van LNA in interactief video-editing aan door middel van een uitgebreide kwantitatieve en kwalitatieve analyse, waarbij we de talrijke voordelen en verbeterde prestaties benadrukken. Voor videoresultaten, zie https://gabriel-huang.github.io/inve/.

English

We present Interactive Neural Video Editing (INVE), a real-time video editing solution, which can assist the video editing process by consistently propagating sparse frame edits to the entire video clip. Our method is inspired by the recent work on Layered Neural Atlas (LNA). LNA, however, suffers from two major drawbacks: (1) the method is too slow for interactive editing, and (2) it offers insufficient support for some editing use cases, including direct frame editing and rigid texture tracking. To address these challenges we leverage and adopt highly efficient network architectures, powered by hash-grids encoding, to substantially improve processing speed. In addition, we learn bi-directional functions between image-atlas and introduce vectorized editing, which collectively enables a much greater variety of edits in both the atlas and the frames directly. Compared to LNA, our INVE reduces the learning and inference time by a factor of 5, and supports various video editing operations that LNA cannot. We showcase the superiority of INVE over LNA in interactive video editing through a comprehensive quantitative and qualitative analysis, highlighting its numerous advantages and improved performance. For video results, please see https://gabriel-huang.github.io/inve/

INVE: Interactieve Neurale Videobewerking

INVE: Interactive Neural Video Editing

Samenvatting

Support