INVE: Edición Neural Interactiva de Vídeo
INVE: Interactive Neural Video Editing
July 15, 2023
Autores: Jiahui Huang, Leonid Sigal, Kwang Moo Yi, Oliver Wang, Joon-Young Lee
cs.AI
Resumen
Presentamos Interactive Neural Video Editing (INVE), una solución de edición de video en tiempo real que puede asistir en el proceso de edición propagando de manera consistente ediciones dispersas en fotogramas a todo el clip de video. Nuestro método se inspira en el trabajo reciente sobre Layered Neural Atlas (LNA). Sin embargo, LNA presenta dos inconvenientes principales: (1) el método es demasiado lento para la edición interactiva, y (2) ofrece un soporte insuficiente para algunos casos de uso de edición, incluyendo la edición directa de fotogramas y el seguimiento rígido de texturas. Para abordar estos desafíos, aprovechamos y adoptamos arquitecturas de red altamente eficientes, potenciadas por la codificación de hash-grids, para mejorar sustancialmente la velocidad de procesamiento. Además, aprendemos funciones bidireccionales entre el atlas de imágenes e introducimos la edición vectorizada, lo que en conjunto permite una variedad mucho mayor de ediciones tanto en el atlas como directamente en los fotogramas. En comparación con LNA, nuestro INVE reduce el tiempo de aprendizaje e inferencia por un factor de 5 y admite diversas operaciones de edición de video que LNA no puede. Demostramos la superioridad de INVE sobre LNA en la edición interactiva de video a través de un análisis cuantitativo y cualitativo exhaustivo, destacando sus numerosas ventajas y su rendimiento mejorado. Para ver los resultados en video, visite https://gabriel-huang.github.io/inve/.
English
We present Interactive Neural Video Editing (INVE), a real-time video editing
solution, which can assist the video editing process by consistently
propagating sparse frame edits to the entire video clip. Our method is inspired
by the recent work on Layered Neural Atlas (LNA). LNA, however, suffers from
two major drawbacks: (1) the method is too slow for interactive editing, and
(2) it offers insufficient support for some editing use cases, including direct
frame editing and rigid texture tracking. To address these challenges we
leverage and adopt highly efficient network architectures, powered by
hash-grids encoding, to substantially improve processing speed. In addition, we
learn bi-directional functions between image-atlas and introduce vectorized
editing, which collectively enables a much greater variety of edits in both the
atlas and the frames directly. Compared to LNA, our INVE reduces the learning
and inference time by a factor of 5, and supports various video editing
operations that LNA cannot. We showcase the superiority of INVE over LNA in
interactive video editing through a comprehensive quantitative and qualitative
analysis, highlighting its numerous advantages and improved performance. For
video results, please see https://gabriel-huang.github.io/inve/