ChatPaper.aiChatPaper

MTV-Inpaint: Inpainting Multi-Task per Video Lunghi

MTV-Inpaint: Multi-Task Long Video Inpainting

March 14, 2025
Autori: Shiyuan Yang, Zheng Gu, Liang Hou, Xin Tao, Pengfei Wan, Xiaodong Chen, Jing Liao
cs.AI

Abstract

Il video inpainting consiste nel modificare regioni locali all'interno di un video, garantendo coerenza spaziale e temporale. La maggior parte dei metodi esistenti si concentra principalmente sul completamento della scena (ovvero, il riempimento di aree mancanti) e manca della capacità di inserire nuovi oggetti in una scena in modo controllabile. Fortunatamente, i recenti progressi nei modelli di diffusione testo-video (T2V) aprono la strada al video inpainting guidato da testo. Tuttavia, l'adattamento diretto dei modelli T2V per l'inpainting rimane limitato nell'unificazione dei compiti di completamento e inserimento, manca di controllabilità sugli input e fatica con video lunghi, limitando così la loro applicabilità e flessibilità. Per affrontare queste sfide, proponiamo MTV-Inpaint, un framework unificato per il video inpainting multi-task in grado di gestire sia il tradizionale completamento della scena che i nuovi compiti di inserimento di oggetti. Per unificare questi compiti distinti, progettiamo un meccanismo di attenzione spaziale a doppio ramo nella U-Net di diffusione T2V, consentendo l'integrazione senza soluzione di continuità del completamento della scena e dell'inserimento di oggetti all'interno di un unico framework. Oltre alla guida testuale, MTV-Inpaint supporta il controllo multimodale integrando vari modelli di inpainting di immagini attraverso la nostra modalità proposta di inpainting immagine-video (I2V). Inoltre, proponiamo una pipeline a due stadi che combina l'inpainting dei fotogrammi chiave con la propagazione dei fotogrammi intermedi, consentendo a MTV-Inpaint di gestire efficacemente video lunghi con centinaia di fotogrammi. Esperimenti estensivi dimostrano che MTV-Inpaint raggiunge prestazioni all'avanguardia sia nei compiti di completamento della scena che di inserimento di oggetti. Inoltre, dimostra versatilità in applicazioni derivate come l'inpainting multimodale, la modifica e la rimozione di oggetti, il pennello per oggetti di immagine e la capacità di gestire video lunghi. Pagina del progetto: https://mtv-inpaint.github.io/.
English
Video inpainting involves modifying local regions within a video, ensuring spatial and temporal consistency. Most existing methods focus primarily on scene completion (i.e., filling missing regions) and lack the capability to insert new objects into a scene in a controllable manner. Fortunately, recent advancements in text-to-video (T2V) diffusion models pave the way for text-guided video inpainting. However, directly adapting T2V models for inpainting remains limited in unifying completion and insertion tasks, lacks input controllability, and struggles with long videos, thereby restricting their applicability and flexibility. To address these challenges, we propose MTV-Inpaint, a unified multi-task video inpainting framework capable of handling both traditional scene completion and novel object insertion tasks. To unify these distinct tasks, we design a dual-branch spatial attention mechanism in the T2V diffusion U-Net, enabling seamless integration of scene completion and object insertion within a single framework. In addition to textual guidance, MTV-Inpaint supports multimodal control by integrating various image inpainting models through our proposed image-to-video (I2V) inpainting mode. Additionally, we propose a two-stage pipeline that combines keyframe inpainting with in-between frame propagation, enabling MTV-Inpaint to effectively handle long videos with hundreds of frames. Extensive experiments demonstrate that MTV-Inpaint achieves state-of-the-art performance in both scene completion and object insertion tasks. Furthermore, it demonstrates versatility in derived applications such as multi-modal inpainting, object editing, removal, image object brush, and the ability to handle long videos. Project page: https://mtv-inpaint.github.io/.
PDF102March 18, 2025