INVE: Интерактивное нейронное редактирование видео

Аннотация

Мы представляем Interactive Neural Video Editing (INVE) — решение для редактирования видео в реальном времени, которое может упростить процесс редактирования, последовательно распространяя редкие правки кадров на весь видеоклип. Наш метод вдохновлён недавними работами по Layered Neural Atlas (LNA). Однако LNA имеет два основных недостатка: (1) метод слишком медленный для интерактивного редактирования и (2) он недостаточно поддерживает некоторые сценарии редактирования, включая прямое редактирование кадров и отслеживание жёстких текстур. Чтобы решить эти проблемы, мы используем и адаптируем высокоэффективные архитектуры нейронных сетей, основанные на кодировании с помощью хэш-гридов, что значительно повышает скорость обработки. Кроме того, мы обучаем двунаправленные функции между изображением и атласом и вводим векторное редактирование, что в совокупности позволяет выполнять гораздо больше разнообразных правок как в атласе, так и непосредственно в кадрах. По сравнению с LNA, наш INVE сокращает время обучения и вывода в 5 раз и поддерживает различные операции редактирования видео, которые недоступны в LNA. Мы демонстрируем превосходство INVE над LNA в интерактивном редактировании видео с помощью всестороннего количественного и качественного анализа, подчеркивая его многочисленные преимущества и улучшенную производительность. Видео результаты доступны по ссылке: https://gabriel-huang.github.io/inve/

English

We present Interactive Neural Video Editing (INVE), a real-time video editing solution, which can assist the video editing process by consistently propagating sparse frame edits to the entire video clip. Our method is inspired by the recent work on Layered Neural Atlas (LNA). LNA, however, suffers from two major drawbacks: (1) the method is too slow for interactive editing, and (2) it offers insufficient support for some editing use cases, including direct frame editing and rigid texture tracking. To address these challenges we leverage and adopt highly efficient network architectures, powered by hash-grids encoding, to substantially improve processing speed. In addition, we learn bi-directional functions between image-atlas and introduce vectorized editing, which collectively enables a much greater variety of edits in both the atlas and the frames directly. Compared to LNA, our INVE reduces the learning and inference time by a factor of 5, and supports various video editing operations that LNA cannot. We showcase the superiority of INVE over LNA in interactive video editing through a comprehensive quantitative and qualitative analysis, highlighting its numerous advantages and improved performance. For video results, please see https://gabriel-huang.github.io/inve/

INVE: Интерактивное нейронное редактирование видео

INVE: Interactive Neural Video Editing

Аннотация

Support