MTV-Inpaint: Multi-Task Lange Video-Inpainting
MTV-Inpaint: Multi-Task Long Video Inpainting
March 14, 2025
Auteurs: Shiyuan Yang, Zheng Gu, Liang Hou, Xin Tao, Pengfei Wan, Xiaodong Chen, Jing Liao
cs.AI
Samenvatting
Video-inpainting omvat het aanpassen van lokale gebieden binnen een video, waarbij ruimtelijke en temporele consistentie wordt gewaarborgd. De meeste bestaande methoden richten zich voornamelijk op scènecompletering (d.w.z. het invullen van ontbrekende gebieden) en missen de mogelijkheid om op een controleerbare manier nieuwe objecten in een scène in te voegen. Gelukkig bieden recente vooruitgangen in tekst-naar-video (T2V) diffusiemodellen een weg naar tekstgeleide video-inpainting. Het direct aanpassen van T2V-modellen voor inpainting blijft echter beperkt in het verenigen van completerings- en invoegingstaken, mist invoercontroleerbaarheid en heeft moeite met lange video's, wat hun toepasbaarheid en flexibiliteit beperkt. Om deze uitdagingen aan te pakken, stellen we MTV-Inpaint voor, een verenigd multi-task video-inpainting framework dat zowel traditionele scènecompletering als nieuwe objectinvoegingstaken aankan. Om deze verschillende taken te verenigen, ontwerpen we een dual-branch ruimtelijke aandachtmechanisme in de T2V diffusie U-Net, waardoor naadloze integratie van scènecompletering en objectinvoeging binnen een enkel framework mogelijk wordt. Naast tekstuele begeleiding ondersteunt MTV-Inpaint multimodale controle door verschillende image-inpainting modellen te integreren via onze voorgestelde image-to-video (I2V) inpainting modus. Daarnaast stellen we een tweefasenpijplijn voor die keyframe-inpainting combineert met doorvoer van tussenliggende frames, waardoor MTV-Inpaint effectief lange video's met honderden frames kan verwerken. Uitgebreide experimenten tonen aan dat MTV-Inpaint state-of-the-art prestaties bereikt in zowel scènecompletering als objectinvoegingstaken. Bovendien toont het veelzijdigheid in afgeleide toepassingen zoals multimodale inpainting, objectbewerking, verwijdering, image-object brush en de mogelijkheid om lange video's te verwerken. Projectpagina: https://mtv-inpaint.github.io/.
English
Video inpainting involves modifying local regions within a video, ensuring
spatial and temporal consistency. Most existing methods focus primarily on
scene completion (i.e., filling missing regions) and lack the capability to
insert new objects into a scene in a controllable manner. Fortunately, recent
advancements in text-to-video (T2V) diffusion models pave the way for
text-guided video inpainting. However, directly adapting T2V models for
inpainting remains limited in unifying completion and insertion tasks, lacks
input controllability, and struggles with long videos, thereby restricting
their applicability and flexibility. To address these challenges, we propose
MTV-Inpaint, a unified multi-task video inpainting framework capable of
handling both traditional scene completion and novel object insertion tasks. To
unify these distinct tasks, we design a dual-branch spatial attention mechanism
in the T2V diffusion U-Net, enabling seamless integration of scene completion
and object insertion within a single framework. In addition to textual
guidance, MTV-Inpaint supports multimodal control by integrating various image
inpainting models through our proposed image-to-video (I2V) inpainting mode.
Additionally, we propose a two-stage pipeline that combines keyframe inpainting
with in-between frame propagation, enabling MTV-Inpaint to effectively handle
long videos with hundreds of frames. Extensive experiments demonstrate that
MTV-Inpaint achieves state-of-the-art performance in both scene completion and
object insertion tasks. Furthermore, it demonstrates versatility in derived
applications such as multi-modal inpainting, object editing, removal, image
object brush, and the ability to handle long videos. Project page:
https://mtv-inpaint.github.io/.Summary
AI-Generated Summary