ChatPaper.aiChatPaper

MIVE : Nouveau Design et Évaluation de Référence pour le Montage Vidéo Multi-Instance

MIVE: New Design and Benchmark for Multi-Instance Video Editing

December 17, 2024
Auteurs: Samuel Teodoro, Agus Gunawan, Soo Ye Kim, Jihyong Oh, Munchurl Kim
cs.AI

Résumé

Les récentes avancées en matière de montage vidéo basé sur l'IA ont permis aux utilisateurs de modifier des vidéos à l'aide de simples instructions textuelles, simplifiant considérablement le processus de montage. Cependant, les techniques récentes de montage vidéo sans apprentissage préalable se concentrent principalement sur des modifications globales ou sur des objets uniques, ce qui peut entraîner des changements non intentionnels dans d'autres parties de la vidéo. Lorsque plusieurs objets nécessitent des modifications localisées, les méthodes existantes sont confrontées à des défis tels que des modifications non fidèles, des fuites de montage et un manque d'ensembles de données et de mesures d'évaluation adaptés. Pour surmonter ces limitations, nous proposons un cadre de montage vidéo multi-instance sans apprentissage préalable, appelé MIVE. MIVE est un cadre basé sur des masques à usage général, non dédié à des objets spécifiques (par exemple, des personnes). MIVE introduit deux modules clés : (i) l'Échantillonnage Multi-instance Désentrelacé (DMS) pour prévenir les fuites de montage et (ii) la Redistribution Probabiliste Centrée sur les Instances (IPR) pour assurer une localisation précise et un montage fidèle. De plus, nous présentons notre nouveau jeu de données MIVE comprenant divers scénarios vidéo et introduisons le Score de Précision Inter-Instances (CIA) pour évaluer les fuites de montage dans les tâches de montage vidéo multi-instance. Nos évaluations approfondies qualitatives, quantitatives et d'études utilisateur démontrent que MIVE surpasse significativement les méthodes récentes de pointe en termes de fidélité de montage, de précision et de prévention des fuites, établissant ainsi une nouvelle référence pour le montage vidéo multi-instance. La page du projet est disponible sur https://kaist-viclab.github.io/mive-site/
English
Recent AI-based video editing has enabled users to edit videos through simple text prompts, significantly simplifying the editing process. However, recent zero-shot video editing techniques primarily focus on global or single-object edits, which can lead to unintended changes in other parts of the video. When multiple objects require localized edits, existing methods face challenges, such as unfaithful editing, editing leakage, and lack of suitable evaluation datasets and metrics. To overcome these limitations, we propose a zero-shot Multi-Instance Video Editing framework, called MIVE. MIVE is a general-purpose mask-based framework, not dedicated to specific objects (e.g., people). MIVE introduces two key modules: (i) Disentangled Multi-instance Sampling (DMS) to prevent editing leakage and (ii) Instance-centric Probability Redistribution (IPR) to ensure precise localization and faithful editing. Additionally, we present our new MIVE Dataset featuring diverse video scenarios and introduce the Cross-Instance Accuracy (CIA) Score to evaluate editing leakage in multi-instance video editing tasks. Our extensive qualitative, quantitative, and user study evaluations demonstrate that MIVE significantly outperforms recent state-of-the-art methods in terms of editing faithfulness, accuracy, and leakage prevention, setting a new benchmark for multi-instance video editing. The project page is available at https://kaist-viclab.github.io/mive-site/
PDF42December 18, 2024