MTV-Inpaint: Rellenado de videos largos mediante aprendizaje multitarea
MTV-Inpaint: Multi-Task Long Video Inpainting
March 14, 2025
Autores: Shiyuan Yang, Zheng Gu, Liang Hou, Xin Tao, Pengfei Wan, Xiaodong Chen, Jing Liao
cs.AI
Resumen
El inpaint de video implica modificar regiones locales dentro de un video, asegurando consistencia espacial y temporal. La mayoría de los métodos existentes se centran principalmente en la completación de escenas (es decir, rellenar regiones faltantes) y carecen de la capacidad de insertar nuevos objetos en una escena de manera controlable. Afortunadamente, los avances recientes en modelos de difusión de texto a video (T2V) abren el camino para el inpaint de video guiado por texto. Sin embargo, la adaptación directa de modelos T2V para inpaint sigue siendo limitada en la unificación de tareas de completación e inserción, carece de controlabilidad en la entrada y tiene dificultades con videos largos, lo que restringe su aplicabilidad y flexibilidad. Para abordar estos desafíos, proponemos MTV-Inpaint, un marco unificado de inpaint de video multitarea capaz de manejar tanto la completación tradicional de escenas como las tareas de inserción de objetos novedosos. Para unificar estas tareas distintas, diseñamos un mecanismo de atención espacial de doble rama en la U-Net de difusión T2V, permitiendo la integración sin problemas de la completación de escenas y la inserción de objetos dentro de un solo marco. Además de la guía textual, MTV-Inpaint soporta control multimodal al integrar varios modelos de inpaint de imagen a través de nuestro modo propuesto de inpaint de imagen a video (I2V). Adicionalmente, proponemos un pipeline de dos etapas que combina el inpaint de fotogramas clave con la propagación de fotogramas intermedios, permitiendo que MTV-Inpaint maneje efectivamente videos largos con cientos de fotogramas. Experimentos extensivos demuestran que MTV-Inpaint logra un rendimiento de vanguardia tanto en tareas de completación de escenas como de inserción de objetos. Además, demuestra versatilidad en aplicaciones derivadas como inpaint multimodal, edición de objetos, eliminación, pincel de objetos en imagen y la capacidad de manejar videos largos. Página del proyecto: https://mtv-inpaint.github.io/.
English
Video inpainting involves modifying local regions within a video, ensuring
spatial and temporal consistency. Most existing methods focus primarily on
scene completion (i.e., filling missing regions) and lack the capability to
insert new objects into a scene in a controllable manner. Fortunately, recent
advancements in text-to-video (T2V) diffusion models pave the way for
text-guided video inpainting. However, directly adapting T2V models for
inpainting remains limited in unifying completion and insertion tasks, lacks
input controllability, and struggles with long videos, thereby restricting
their applicability and flexibility. To address these challenges, we propose
MTV-Inpaint, a unified multi-task video inpainting framework capable of
handling both traditional scene completion and novel object insertion tasks. To
unify these distinct tasks, we design a dual-branch spatial attention mechanism
in the T2V diffusion U-Net, enabling seamless integration of scene completion
and object insertion within a single framework. In addition to textual
guidance, MTV-Inpaint supports multimodal control by integrating various image
inpainting models through our proposed image-to-video (I2V) inpainting mode.
Additionally, we propose a two-stage pipeline that combines keyframe inpainting
with in-between frame propagation, enabling MTV-Inpaint to effectively handle
long videos with hundreds of frames. Extensive experiments demonstrate that
MTV-Inpaint achieves state-of-the-art performance in both scene completion and
object insertion tasks. Furthermore, it demonstrates versatility in derived
applications such as multi-modal inpainting, object editing, removal, image
object brush, and the ability to handle long videos. Project page:
https://mtv-inpaint.github.io/.Summary
AI-Generated Summary