MTV-Inpaint : Réparation vidéo longue multi-tâches
MTV-Inpaint: Multi-Task Long Video Inpainting
March 14, 2025
Auteurs: Shiyuan Yang, Zheng Gu, Liang Hou, Xin Tao, Pengfei Wan, Xiaodong Chen, Jing Liao
cs.AI
Résumé
L'inpainting vidéo consiste à modifier des régions locales dans une vidéo tout en garantissant une cohérence spatiale et temporelle. La plupart des méthodes existantes se concentrent principalement sur la complétion de scènes (c'est-à-dire le remplissage de zones manquantes) et manquent de la capacité à insérer de nouveaux objets dans une scène de manière contrôlée. Heureusement, les récents progrès des modèles de diffusion texte-à-vidéo (T2V) ouvrent la voie à l'inpainting vidéo guidé par texte. Cependant, l'adaptation directe des modèles T2V pour l'inpainting reste limitée dans l'unification des tâches de complétion et d'insertion, manque de contrôlabilité des entrées, et peine à gérer les vidéos longues, limitant ainsi leur applicabilité et leur flexibilité. Pour relever ces défis, nous proposons MTV-Inpaint, un cadre unifié d'inpainting vidéo multi-tâches capable de gérer à la fois les tâches traditionnelles de complétion de scènes et les nouvelles tâches d'insertion d'objets. Pour unifier ces tâches distinctes, nous concevons un mécanisme d'attention spatiale à double branche dans l'U-Net de diffusion T2V, permettant une intégration fluide de la complétion de scènes et de l'insertion d'objets dans un cadre unique. En plus du guidage textuel, MTV-Inpaint prend en charge le contrôle multimodal en intégrant divers modèles d'inpainting d'images via notre mode d'inpainting image-à-vidéo (I2V) proposé. De plus, nous proposons un pipeline en deux étapes qui combine l'inpainting d'images clés avec la propagation des images intermédiaires, permettant à MTV-Inpaint de gérer efficacement les vidéos longues comportant des centaines d'images. Des expériences approfondies démontrent que MTV-Inpaint atteint des performances de pointe à la fois dans les tâches de complétion de scènes et d'insertion d'objets. En outre, il démontre une polyvalence dans des applications dérivées telles que l'inpainting multimodal, l'édition d'objets, la suppression, le pinceau d'objets d'image, et la capacité à gérer des vidéos longues. Page du projet : https://mtv-inpaint.github.io/.
English
Video inpainting involves modifying local regions within a video, ensuring
spatial and temporal consistency. Most existing methods focus primarily on
scene completion (i.e., filling missing regions) and lack the capability to
insert new objects into a scene in a controllable manner. Fortunately, recent
advancements in text-to-video (T2V) diffusion models pave the way for
text-guided video inpainting. However, directly adapting T2V models for
inpainting remains limited in unifying completion and insertion tasks, lacks
input controllability, and struggles with long videos, thereby restricting
their applicability and flexibility. To address these challenges, we propose
MTV-Inpaint, a unified multi-task video inpainting framework capable of
handling both traditional scene completion and novel object insertion tasks. To
unify these distinct tasks, we design a dual-branch spatial attention mechanism
in the T2V diffusion U-Net, enabling seamless integration of scene completion
and object insertion within a single framework. In addition to textual
guidance, MTV-Inpaint supports multimodal control by integrating various image
inpainting models through our proposed image-to-video (I2V) inpainting mode.
Additionally, we propose a two-stage pipeline that combines keyframe inpainting
with in-between frame propagation, enabling MTV-Inpaint to effectively handle
long videos with hundreds of frames. Extensive experiments demonstrate that
MTV-Inpaint achieves state-of-the-art performance in both scene completion and
object insertion tasks. Furthermore, it demonstrates versatility in derived
applications such as multi-modal inpainting, object editing, removal, image
object brush, and the ability to handle long videos. Project page:
https://mtv-inpaint.github.io/.Summary
AI-Generated Summary