MIVE : Nouveau Design et Évaluation de Référence pour le Montage Vidéo Multi-Instance
MIVE: New Design and Benchmark for Multi-Instance Video Editing
December 17, 2024
Auteurs: Samuel Teodoro, Agus Gunawan, Soo Ye Kim, Jihyong Oh, Munchurl Kim
cs.AI
Résumé
Les récentes avancées en matière de montage vidéo basé sur l'IA ont permis aux utilisateurs de modifier des vidéos à l'aide de simples instructions textuelles, simplifiant considérablement le processus de montage. Cependant, les techniques récentes de montage vidéo sans apprentissage préalable se concentrent principalement sur des modifications globales ou sur des objets uniques, ce qui peut entraîner des changements non intentionnels dans d'autres parties de la vidéo. Lorsque plusieurs objets nécessitent des modifications localisées, les méthodes existantes sont confrontées à des défis tels que des modifications non fidèles, des fuites de montage et un manque d'ensembles de données et de mesures d'évaluation adaptés. Pour surmonter ces limitations, nous proposons un cadre de montage vidéo multi-instance sans apprentissage préalable, appelé MIVE. MIVE est un cadre basé sur des masques à usage général, non dédié à des objets spécifiques (par exemple, des personnes). MIVE introduit deux modules clés : (i) l'Échantillonnage Multi-instance Désentrelacé (DMS) pour prévenir les fuites de montage et (ii) la Redistribution Probabiliste Centrée sur les Instances (IPR) pour assurer une localisation précise et un montage fidèle. De plus, nous présentons notre nouveau jeu de données MIVE comprenant divers scénarios vidéo et introduisons le Score de Précision Inter-Instances (CIA) pour évaluer les fuites de montage dans les tâches de montage vidéo multi-instance. Nos évaluations approfondies qualitatives, quantitatives et d'études utilisateur démontrent que MIVE surpasse significativement les méthodes récentes de pointe en termes de fidélité de montage, de précision et de prévention des fuites, établissant ainsi une nouvelle référence pour le montage vidéo multi-instance. La page du projet est disponible sur https://kaist-viclab.github.io/mive-site/
English
Recent AI-based video editing has enabled users to edit videos through simple
text prompts, significantly simplifying the editing process. However, recent
zero-shot video editing techniques primarily focus on global or single-object
edits, which can lead to unintended changes in other parts of the video. When
multiple objects require localized edits, existing methods face challenges,
such as unfaithful editing, editing leakage, and lack of suitable evaluation
datasets and metrics. To overcome these limitations, we propose a zero-shot
Multi-Instance Video Editing
framework, called MIVE. MIVE is a general-purpose mask-based framework, not
dedicated to specific objects (e.g., people). MIVE introduces two key modules:
(i) Disentangled Multi-instance Sampling (DMS) to prevent editing leakage and
(ii) Instance-centric Probability Redistribution (IPR) to ensure precise
localization and faithful editing. Additionally, we present our new MIVE
Dataset featuring diverse video scenarios and introduce the Cross-Instance
Accuracy (CIA) Score to evaluate editing leakage in multi-instance video
editing tasks. Our extensive qualitative, quantitative, and user study
evaluations demonstrate that MIVE significantly outperforms recent
state-of-the-art methods in terms of editing faithfulness, accuracy, and
leakage prevention, setting a new benchmark for multi-instance video editing.
The project page is available at https://kaist-viclab.github.io/mive-site/