INVE: Edição Neural Interativa de Vídeo

Resumo

Apresentamos o Interactive Neural Video Editing (INVE), uma solução de edição de vídeo em tempo real, que pode auxiliar o processo de edição propagando consistentemente edições esparsas de quadros para todo o clipe de vídeo. Nosso método é inspirado pelo trabalho recente sobre Layered Neural Atlas (LNA). No entanto, o LNA apresenta duas grandes limitações: (1) o método é muito lento para edição interativa, e (2) oferece suporte insuficiente para alguns casos de uso de edição, incluindo edição direta de quadros e rastreamento rígido de texturas. Para enfrentar esses desafios, aproveitamos e adotamos arquiteturas de rede altamente eficientes, impulsionadas por codificação de hash-grids, para melhorar substancialmente a velocidade de processamento. Além disso, aprendemos funções bidirecionais entre o atlas de imagens e introduzimos a edição vetorizada, o que, em conjunto, permite uma variedade muito maior de edições tanto no atlas quanto diretamente nos quadros. Em comparação com o LNA, nosso INVE reduz o tempo de aprendizado e inferência por um fator de 5 e suporta várias operações de edição de vídeo que o LNA não consegue. Demonstramos a superioridade do INVE sobre o LNA na edição interativa de vídeo por meio de uma análise quantitativa e qualitativa abrangente, destacando suas inúmeras vantagens e desempenho aprimorado. Para ver os resultados em vídeo, acesse https://gabriel-huang.github.io/inve/.

English

We present Interactive Neural Video Editing (INVE), a real-time video editing solution, which can assist the video editing process by consistently propagating sparse frame edits to the entire video clip. Our method is inspired by the recent work on Layered Neural Atlas (LNA). LNA, however, suffers from two major drawbacks: (1) the method is too slow for interactive editing, and (2) it offers insufficient support for some editing use cases, including direct frame editing and rigid texture tracking. To address these challenges we leverage and adopt highly efficient network architectures, powered by hash-grids encoding, to substantially improve processing speed. In addition, we learn bi-directional functions between image-atlas and introduce vectorized editing, which collectively enables a much greater variety of edits in both the atlas and the frames directly. Compared to LNA, our INVE reduces the learning and inference time by a factor of 5, and supports various video editing operations that LNA cannot. We showcase the superiority of INVE over LNA in interactive video editing through a comprehensive quantitative and qualitative analysis, highlighting its numerous advantages and improved performance. For video results, please see https://gabriel-huang.github.io/inve/

INVE: Edição Neural Interativa de Vídeo

INVE: Interactive Neural Video Editing

Resumo

Support