INVE : Édition Interactive de Vidéo par Réseaux Neuronaux
INVE: Interactive Neural Video Editing
July 15, 2023
Auteurs: Jiahui Huang, Leonid Sigal, Kwang Moo Yi, Oliver Wang, Joon-Young Lee
cs.AI
Résumé
Nous présentons Interactive Neural Video Editing (INVE), une solution d'édition vidéo en temps réel, capable d'assister le processus d'édition en propageant de manière cohérente des modifications éparses sur l'ensemble d'un clip vidéo. Notre méthode s'inspire des travaux récents sur le Layered Neural Atlas (LNA). Cependant, le LNA présente deux inconvénients majeurs : (1) la méthode est trop lente pour une édition interactive, et (2) elle offre un support insuffisant pour certains cas d'utilisation, notamment l'édition directe des images et le suivi rigide des textures. Pour résoudre ces problèmes, nous exploitons et adoptons des architectures de réseau hautement efficaces, alimentées par un encodage par grilles de hachage, afin d'améliorer considérablement la vitesse de traitement. De plus, nous apprenons des fonctions bidirectionnelles entre l'image et l'atlas et introduisons l'édition vectorisée, ce qui permet ensemble une bien plus grande variété de modifications, à la fois dans l'atlas et directement dans les images. Par rapport au LNA, notre INVE réduit le temps d'apprentissage et d'inférence d'un facteur 5 et prend en charge diverses opérations d'édition vidéo que le LNA ne peut pas réaliser. Nous démontrons la supériorité de l'INVE par rapport au LNA dans l'édition vidéo interactive à travers une analyse quantitative et qualitative approfondie, mettant en avant ses nombreux avantages et ses performances améliorées. Pour voir les résultats vidéo, veuillez consulter https://gabriel-huang.github.io/inve/.
English
We present Interactive Neural Video Editing (INVE), a real-time video editing
solution, which can assist the video editing process by consistently
propagating sparse frame edits to the entire video clip. Our method is inspired
by the recent work on Layered Neural Atlas (LNA). LNA, however, suffers from
two major drawbacks: (1) the method is too slow for interactive editing, and
(2) it offers insufficient support for some editing use cases, including direct
frame editing and rigid texture tracking. To address these challenges we
leverage and adopt highly efficient network architectures, powered by
hash-grids encoding, to substantially improve processing speed. In addition, we
learn bi-directional functions between image-atlas and introduce vectorized
editing, which collectively enables a much greater variety of edits in both the
atlas and the frames directly. Compared to LNA, our INVE reduces the learning
and inference time by a factor of 5, and supports various video editing
operations that LNA cannot. We showcase the superiority of INVE over LNA in
interactive video editing through a comprehensive quantitative and qualitative
analysis, highlighting its numerous advantages and improved performance. For
video results, please see https://gabriel-huang.github.io/inve/