INVE: Modifica Neurale Interattiva dei Video
INVE: Interactive Neural Video Editing
July 15, 2023
Autori: Jiahui Huang, Leonid Sigal, Kwang Moo Yi, Oliver Wang, Joon-Young Lee
cs.AI
Abstract
Presentiamo Interactive Neural Video Editing (INVE), una soluzione di editing video in tempo reale che può assistere il processo di editing propagando in modo coerente le modifiche sparse dei fotogrammi all'intero clip video. Il nostro metodo è ispirato dal recente lavoro su Layered Neural Atlas (LNA). Tuttavia, LNA presenta due principali limitazioni: (1) il metodo è troppo lento per l'editing interattivo e (2) offre un supporto insufficiente per alcuni casi d'uso di editing, inclusa la modifica diretta dei fotogrammi e il tracciamento rigido delle texture. Per affrontare queste sfide, sfruttiamo e adottiamo architetture di rete altamente efficienti, alimentate dalla codifica hash-grid, per migliorare sostanzialmente la velocità di elaborazione. Inoltre, apprendiamo funzioni bidirezionali tra immagine-atlante e introduciamo l'editing vettoriale, che collettivamente consente una varietà molto maggiore di modifiche sia nell'atlante che direttamente nei fotogrammi. Rispetto a LNA, il nostro INVE riduce il tempo di apprendimento e inferenza di un fattore 5 e supporta varie operazioni di editing video che LNA non può gestire. Dimostriamo la superiorità di INVE rispetto a LNA nell'editing video interattivo attraverso un'analisi quantitativa e qualitativa completa, evidenziandone i numerosi vantaggi e le prestazioni migliorate. Per i risultati video, si prega di visitare https://gabriel-huang.github.io/inve/.
English
We present Interactive Neural Video Editing (INVE), a real-time video editing
solution, which can assist the video editing process by consistently
propagating sparse frame edits to the entire video clip. Our method is inspired
by the recent work on Layered Neural Atlas (LNA). LNA, however, suffers from
two major drawbacks: (1) the method is too slow for interactive editing, and
(2) it offers insufficient support for some editing use cases, including direct
frame editing and rigid texture tracking. To address these challenges we
leverage and adopt highly efficient network architectures, powered by
hash-grids encoding, to substantially improve processing speed. In addition, we
learn bi-directional functions between image-atlas and introduce vectorized
editing, which collectively enables a much greater variety of edits in both the
atlas and the frames directly. Compared to LNA, our INVE reduces the learning
and inference time by a factor of 5, and supports various video editing
operations that LNA cannot. We showcase the superiority of INVE over LNA in
interactive video editing through a comprehensive quantitative and qualitative
analysis, highlighting its numerous advantages and improved performance. For
video results, please see https://gabriel-huang.github.io/inve/