MTV-Inpaint: Preenchimento de Vídeos Longos com Múltiplas Tarefas
MTV-Inpaint: Multi-Task Long Video Inpainting
March 14, 2025
Autores: Shiyuan Yang, Zheng Gu, Liang Hou, Xin Tao, Pengfei Wan, Xiaodong Chen, Jing Liao
cs.AI
Resumo
A restauração de vídeo envolve a modificação de regiões locais dentro de um vídeo, garantindo consistência espacial e temporal. A maioria dos métodos existentes foca principalmente na conclusão de cenas (ou seja, preenchendo regiões ausentes) e carece da capacidade de inserir novos objetos em uma cena de maneira controlável. Felizmente, avanços recentes em modelos de difusão de texto para vídeo (T2V) abrem caminho para a restauração de vídeo guiada por texto. No entanto, a adaptação direta de modelos T2V para restauração ainda é limitada na unificação de tarefas de conclusão e inserção, carece de controlabilidade de entrada e enfrenta dificuldades com vídeos longos, restringindo assim sua aplicabilidade e flexibilidade. Para enfrentar esses desafios, propomos o MTV-Inpaint, uma estrutura unificada de restauração de vídeo multitarefa capaz de lidar tanto com tarefas tradicionais de conclusão de cena quanto com a inserção de novos objetos. Para unificar essas tarefas distintas, projetamos um mecanismo de atenção espacial de duplo ramo na U-Net de difusão T2V, permitindo a integração perfeita de conclusão de cena e inserção de objetos em uma única estrutura. Além da orientação textual, o MTV-Inpaint suporta controle multimodal ao integrar vários modelos de restauração de imagem por meio do nosso modo proposto de restauração de imagem para vídeo (I2V). Adicionalmente, propomos um pipeline de dois estágios que combina a restauração de quadros-chave com a propagação de quadros intermediários, permitindo que o MTV-Inpaint lide efetivamente com vídeos longos contendo centenas de quadros. Experimentos extensivos demonstram que o MTV-Inpaint alcança desempenho de ponta tanto em tarefas de conclusão de cena quanto em inserção de objetos. Além disso, ele demonstra versatilidade em aplicações derivadas, como restauração multimodal, edição de objetos, remoção, pincel de objetos em imagem e a capacidade de lidar com vídeos longos. Página do projeto: https://mtv-inpaint.github.io/.
English
Video inpainting involves modifying local regions within a video, ensuring
spatial and temporal consistency. Most existing methods focus primarily on
scene completion (i.e., filling missing regions) and lack the capability to
insert new objects into a scene in a controllable manner. Fortunately, recent
advancements in text-to-video (T2V) diffusion models pave the way for
text-guided video inpainting. However, directly adapting T2V models for
inpainting remains limited in unifying completion and insertion tasks, lacks
input controllability, and struggles with long videos, thereby restricting
their applicability and flexibility. To address these challenges, we propose
MTV-Inpaint, a unified multi-task video inpainting framework capable of
handling both traditional scene completion and novel object insertion tasks. To
unify these distinct tasks, we design a dual-branch spatial attention mechanism
in the T2V diffusion U-Net, enabling seamless integration of scene completion
and object insertion within a single framework. In addition to textual
guidance, MTV-Inpaint supports multimodal control by integrating various image
inpainting models through our proposed image-to-video (I2V) inpainting mode.
Additionally, we propose a two-stage pipeline that combines keyframe inpainting
with in-between frame propagation, enabling MTV-Inpaint to effectively handle
long videos with hundreds of frames. Extensive experiments demonstrate that
MTV-Inpaint achieves state-of-the-art performance in both scene completion and
object insertion tasks. Furthermore, it demonstrates versatility in derived
applications such as multi-modal inpainting, object editing, removal, image
object brush, and the ability to handle long videos. Project page:
https://mtv-inpaint.github.io/.Summary
AI-Generated Summary