INVE : Édition Interactive de Vidéo par Réseaux Neuronaux

Résumé

Nous présentons Interactive Neural Video Editing (INVE), une solution d'édition vidéo en temps réel, capable d'assister le processus d'édition en propageant de manière cohérente des modifications éparses sur l'ensemble d'un clip vidéo. Notre méthode s'inspire des travaux récents sur le Layered Neural Atlas (LNA). Cependant, le LNA présente deux inconvénients majeurs : (1) la méthode est trop lente pour une édition interactive, et (2) elle offre un support insuffisant pour certains cas d'utilisation, notamment l'édition directe des images et le suivi rigide des textures. Pour résoudre ces problèmes, nous exploitons et adoptons des architectures de réseau hautement efficaces, alimentées par un encodage par grilles de hachage, afin d'améliorer considérablement la vitesse de traitement. De plus, nous apprenons des fonctions bidirectionnelles entre l'image et l'atlas et introduisons l'édition vectorisée, ce qui permet ensemble une bien plus grande variété de modifications, à la fois dans l'atlas et directement dans les images. Par rapport au LNA, notre INVE réduit le temps d'apprentissage et d'inférence d'un facteur 5 et prend en charge diverses opérations d'édition vidéo que le LNA ne peut pas réaliser. Nous démontrons la supériorité de l'INVE par rapport au LNA dans l'édition vidéo interactive à travers une analyse quantitative et qualitative approfondie, mettant en avant ses nombreux avantages et ses performances améliorées. Pour voir les résultats vidéo, veuillez consulter https://gabriel-huang.github.io/inve/.

English

We present Interactive Neural Video Editing (INVE), a real-time video editing solution, which can assist the video editing process by consistently propagating sparse frame edits to the entire video clip. Our method is inspired by the recent work on Layered Neural Atlas (LNA). LNA, however, suffers from two major drawbacks: (1) the method is too slow for interactive editing, and (2) it offers insufficient support for some editing use cases, including direct frame editing and rigid texture tracking. To address these challenges we leverage and adopt highly efficient network architectures, powered by hash-grids encoding, to substantially improve processing speed. In addition, we learn bi-directional functions between image-atlas and introduce vectorized editing, which collectively enables a much greater variety of edits in both the atlas and the frames directly. Compared to LNA, our INVE reduces the learning and inference time by a factor of 5, and supports various video editing operations that LNA cannot. We showcase the superiority of INVE over LNA in interactive video editing through a comprehensive quantitative and qualitative analysis, highlighting its numerous advantages and improved performance. For video results, please see https://gabriel-huang.github.io/inve/

INVE : Édition Interactive de Vidéo par Réseaux Neuronaux

INVE: Interactive Neural Video Editing

Résumé

Support