MTV-Inpaint: Многоцелевое восстановление длинных видеозаписей
MTV-Inpaint: Multi-Task Long Video Inpainting
March 14, 2025
Авторы: Shiyuan Yang, Zheng Gu, Liang Hou, Xin Tao, Pengfei Wan, Xiaodong Chen, Jing Liao
cs.AI
Аннотация
Видеоинпейнтинг предполагает модификацию локальных областей в видео с обеспечением пространственной и временной согласованности. Большинство существующих методов в основном сосредоточены на завершении сцены (т.е. заполнении отсутствующих областей) и не обладают возможностью контролируемого добавления новых объектов в сцену. К счастью, последние достижения в области моделей диффузии "текст-в-видео" (T2V) открывают путь к текстово-управляемому видеоинпейнтингу. Однако прямое применение T2V моделей для инпейнтинга остается ограниченным в объединении задач завершения и добавления, не обеспечивает достаточной управляемости входными данными и испытывает трудности с длинными видео, что ограничивает их применимость и гибкость. Для решения этих задач мы предлагаем MTV-Inpaint — унифицированную многозадачную структуру для видеоинпейнтинга, способную справляться как с традиционным завершением сцены, так и с добавлением новых объектов. Для объединения этих различных задач мы разработали механизм двойного ветвления пространственного внимания в U-Net модели T2V диффузии, что позволяет бесшовно интегрировать завершение сцены и добавление объектов в рамках единой структуры. Помимо текстового управления, MTV-Inpaint поддерживает мультимодальный контроль за счет интеграции различных моделей инпейнтинга изображений через наш предложенный режим "изображение-в-видео" (I2V). Кроме того, мы предлагаем двухэтапный процесс, сочетающий инпейнтинг ключевых кадров с распространением промежуточных кадров, что позволяет MTV-Inpaint эффективно обрабатывать длинные видео с сотнями кадров. Многочисленные эксперименты демонстрируют, что MTV-Inpaint достигает передовых результатов как в задачах завершения сцены, так и в добавлении объектов. Более того, он демонстрирует универсальность в производных приложениях, таких как мультимодальный инпейнтинг, редактирование объектов, удаление, кисть для объектов на изображении и возможность работы с длинными видео. Страница проекта: https://mtv-inpaint.github.io/.
English
Video inpainting involves modifying local regions within a video, ensuring
spatial and temporal consistency. Most existing methods focus primarily on
scene completion (i.e., filling missing regions) and lack the capability to
insert new objects into a scene in a controllable manner. Fortunately, recent
advancements in text-to-video (T2V) diffusion models pave the way for
text-guided video inpainting. However, directly adapting T2V models for
inpainting remains limited in unifying completion and insertion tasks, lacks
input controllability, and struggles with long videos, thereby restricting
their applicability and flexibility. To address these challenges, we propose
MTV-Inpaint, a unified multi-task video inpainting framework capable of
handling both traditional scene completion and novel object insertion tasks. To
unify these distinct tasks, we design a dual-branch spatial attention mechanism
in the T2V diffusion U-Net, enabling seamless integration of scene completion
and object insertion within a single framework. In addition to textual
guidance, MTV-Inpaint supports multimodal control by integrating various image
inpainting models through our proposed image-to-video (I2V) inpainting mode.
Additionally, we propose a two-stage pipeline that combines keyframe inpainting
with in-between frame propagation, enabling MTV-Inpaint to effectively handle
long videos with hundreds of frames. Extensive experiments demonstrate that
MTV-Inpaint achieves state-of-the-art performance in both scene completion and
object insertion tasks. Furthermore, it demonstrates versatility in derived
applications such as multi-modal inpainting, object editing, removal, image
object brush, and the ability to handle long videos. Project page:
https://mtv-inpaint.github.io/.Summary
AI-Generated Summary