INVE: Edição Neural Interativa de Vídeo
INVE: Interactive Neural Video Editing
July 15, 2023
Autores: Jiahui Huang, Leonid Sigal, Kwang Moo Yi, Oliver Wang, Joon-Young Lee
cs.AI
Resumo
Apresentamos o Interactive Neural Video Editing (INVE), uma solução de edição de vídeo em tempo real, que pode auxiliar o processo de edição propagando consistentemente edições esparsas de quadros para todo o clipe de vídeo. Nosso método é inspirado pelo trabalho recente sobre Layered Neural Atlas (LNA). No entanto, o LNA apresenta duas grandes limitações: (1) o método é muito lento para edição interativa, e (2) oferece suporte insuficiente para alguns casos de uso de edição, incluindo edição direta de quadros e rastreamento rígido de texturas. Para enfrentar esses desafios, aproveitamos e adotamos arquiteturas de rede altamente eficientes, impulsionadas por codificação de hash-grids, para melhorar substancialmente a velocidade de processamento. Além disso, aprendemos funções bidirecionais entre o atlas de imagens e introduzimos a edição vetorizada, o que, em conjunto, permite uma variedade muito maior de edições tanto no atlas quanto diretamente nos quadros. Em comparação com o LNA, nosso INVE reduz o tempo de aprendizado e inferência por um fator de 5 e suporta várias operações de edição de vídeo que o LNA não consegue. Demonstramos a superioridade do INVE sobre o LNA na edição interativa de vídeo por meio de uma análise quantitativa e qualitativa abrangente, destacando suas inúmeras vantagens e desempenho aprimorado. Para ver os resultados em vídeo, acesse https://gabriel-huang.github.io/inve/.
English
We present Interactive Neural Video Editing (INVE), a real-time video editing
solution, which can assist the video editing process by consistently
propagating sparse frame edits to the entire video clip. Our method is inspired
by the recent work on Layered Neural Atlas (LNA). LNA, however, suffers from
two major drawbacks: (1) the method is too slow for interactive editing, and
(2) it offers insufficient support for some editing use cases, including direct
frame editing and rigid texture tracking. To address these challenges we
leverage and adopt highly efficient network architectures, powered by
hash-grids encoding, to substantially improve processing speed. In addition, we
learn bi-directional functions between image-atlas and introduce vectorized
editing, which collectively enables a much greater variety of edits in both the
atlas and the frames directly. Compared to LNA, our INVE reduces the learning
and inference time by a factor of 5, and supports various video editing
operations that LNA cannot. We showcase the superiority of INVE over LNA in
interactive video editing through a comprehensive quantitative and qualitative
analysis, highlighting its numerous advantages and improved performance. For
video results, please see https://gabriel-huang.github.io/inve/