MTV-Inpaint: Inpainting Multi-Task per Video Lunghi
MTV-Inpaint: Multi-Task Long Video Inpainting
March 14, 2025
Autori: Shiyuan Yang, Zheng Gu, Liang Hou, Xin Tao, Pengfei Wan, Xiaodong Chen, Jing Liao
cs.AI
Abstract
Il video inpainting consiste nel modificare regioni locali all'interno di un video, garantendo coerenza spaziale e temporale. La maggior parte dei metodi esistenti si concentra principalmente sul completamento della scena (ovvero, il riempimento di aree mancanti) e manca della capacità di inserire nuovi oggetti in una scena in modo controllabile. Fortunatamente, i recenti progressi nei modelli di diffusione testo-video (T2V) aprono la strada al video inpainting guidato da testo. Tuttavia, l'adattamento diretto dei modelli T2V per l'inpainting rimane limitato nell'unificazione dei compiti di completamento e inserimento, manca di controllabilità sugli input e fatica con video lunghi, limitando così la loro applicabilità e flessibilità. Per affrontare queste sfide, proponiamo MTV-Inpaint, un framework unificato per il video inpainting multi-task in grado di gestire sia il tradizionale completamento della scena che i nuovi compiti di inserimento di oggetti. Per unificare questi compiti distinti, progettiamo un meccanismo di attenzione spaziale a doppio ramo nella U-Net di diffusione T2V, consentendo l'integrazione senza soluzione di continuità del completamento della scena e dell'inserimento di oggetti all'interno di un unico framework. Oltre alla guida testuale, MTV-Inpaint supporta il controllo multimodale integrando vari modelli di inpainting di immagini attraverso la nostra modalità proposta di inpainting immagine-video (I2V). Inoltre, proponiamo una pipeline a due stadi che combina l'inpainting dei fotogrammi chiave con la propagazione dei fotogrammi intermedi, consentendo a MTV-Inpaint di gestire efficacemente video lunghi con centinaia di fotogrammi. Esperimenti estensivi dimostrano che MTV-Inpaint raggiunge prestazioni all'avanguardia sia nei compiti di completamento della scena che di inserimento di oggetti. Inoltre, dimostra versatilità in applicazioni derivate come l'inpainting multimodale, la modifica e la rimozione di oggetti, il pennello per oggetti di immagine e la capacità di gestire video lunghi. Pagina del progetto: https://mtv-inpaint.github.io/.
English
Video inpainting involves modifying local regions within a video, ensuring
spatial and temporal consistency. Most existing methods focus primarily on
scene completion (i.e., filling missing regions) and lack the capability to
insert new objects into a scene in a controllable manner. Fortunately, recent
advancements in text-to-video (T2V) diffusion models pave the way for
text-guided video inpainting. However, directly adapting T2V models for
inpainting remains limited in unifying completion and insertion tasks, lacks
input controllability, and struggles with long videos, thereby restricting
their applicability and flexibility. To address these challenges, we propose
MTV-Inpaint, a unified multi-task video inpainting framework capable of
handling both traditional scene completion and novel object insertion tasks. To
unify these distinct tasks, we design a dual-branch spatial attention mechanism
in the T2V diffusion U-Net, enabling seamless integration of scene completion
and object insertion within a single framework. In addition to textual
guidance, MTV-Inpaint supports multimodal control by integrating various image
inpainting models through our proposed image-to-video (I2V) inpainting mode.
Additionally, we propose a two-stage pipeline that combines keyframe inpainting
with in-between frame propagation, enabling MTV-Inpaint to effectively handle
long videos with hundreds of frames. Extensive experiments demonstrate that
MTV-Inpaint achieves state-of-the-art performance in both scene completion and
object insertion tasks. Furthermore, it demonstrates versatility in derived
applications such as multi-modal inpainting, object editing, removal, image
object brush, and the ability to handle long videos. Project page:
https://mtv-inpaint.github.io/.