INVE: Интерактивное нейронное редактирование видео
INVE: Interactive Neural Video Editing
July 15, 2023
Авторы: Jiahui Huang, Leonid Sigal, Kwang Moo Yi, Oliver Wang, Joon-Young Lee
cs.AI
Аннотация
Мы представляем Interactive Neural Video Editing (INVE) — решение для редактирования видео в реальном времени, которое может упростить процесс редактирования, последовательно распространяя редкие правки кадров на весь видеоклип. Наш метод вдохновлён недавними работами по Layered Neural Atlas (LNA). Однако LNA имеет два основных недостатка: (1) метод слишком медленный для интерактивного редактирования и (2) он недостаточно поддерживает некоторые сценарии редактирования, включая прямое редактирование кадров и отслеживание жёстких текстур. Чтобы решить эти проблемы, мы используем и адаптируем высокоэффективные архитектуры нейронных сетей, основанные на кодировании с помощью хэш-гридов, что значительно повышает скорость обработки. Кроме того, мы обучаем двунаправленные функции между изображением и атласом и вводим векторное редактирование, что в совокупности позволяет выполнять гораздо больше разнообразных правок как в атласе, так и непосредственно в кадрах. По сравнению с LNA, наш INVE сокращает время обучения и вывода в 5 раз и поддерживает различные операции редактирования видео, которые недоступны в LNA. Мы демонстрируем превосходство INVE над LNA в интерактивном редактировании видео с помощью всестороннего количественного и качественного анализа, подчеркивая его многочисленные преимущества и улучшенную производительность. Видео результаты доступны по ссылке: https://gabriel-huang.github.io/inve/
English
We present Interactive Neural Video Editing (INVE), a real-time video editing
solution, which can assist the video editing process by consistently
propagating sparse frame edits to the entire video clip. Our method is inspired
by the recent work on Layered Neural Atlas (LNA). LNA, however, suffers from
two major drawbacks: (1) the method is too slow for interactive editing, and
(2) it offers insufficient support for some editing use cases, including direct
frame editing and rigid texture tracking. To address these challenges we
leverage and adopt highly efficient network architectures, powered by
hash-grids encoding, to substantially improve processing speed. In addition, we
learn bi-directional functions between image-atlas and introduce vectorized
editing, which collectively enables a much greater variety of edits in both the
atlas and the frames directly. Compared to LNA, our INVE reduces the learning
and inference time by a factor of 5, and supports various video editing
operations that LNA cannot. We showcase the superiority of INVE over LNA in
interactive video editing through a comprehensive quantitative and qualitative
analysis, highlighting its numerous advantages and improved performance. For
video results, please see https://gabriel-huang.github.io/inve/