MIVE: Neues Design und Benchmark für die Bearbeitung von Mehrinstanzenvideos
MIVE: New Design and Benchmark for Multi-Instance Video Editing
December 17, 2024
Autoren: Samuel Teodoro, Agus Gunawan, Soo Ye Kim, Jihyong Oh, Munchurl Kim
cs.AI
Zusammenfassung
Die jüngste KI-basierte Videobearbeitung hat es Benutzern ermöglicht, Videos durch einfache Texteingaben zu bearbeiten, wodurch der Bearbeitungsprozess erheblich vereinfacht wird. Allerdings konzentrieren sich aktuelle Zero-Shot-Videobearbeitungstechniken hauptsächlich auf globale oder Einzelobjekt-Bearbeitungen, was zu unbeabsichtigten Änderungen in anderen Teilen des Videos führen kann. Wenn mehrere Objekte lokalisierte Bearbeitungen erfordern, stehen bestehende Methoden vor Herausforderungen wie ungenauer Bearbeitung, Bearbeitungsleckage und dem Fehlen geeigneter Bewertungsdatensätze und Metriken. Um diese Einschränkungen zu überwinden, schlagen wir ein Zero-Shot Multi-Instance Video Editing-Framework namens MIVE vor. MIVE ist ein allgemeines maskenbasiertes Framework, das nicht auf spezifische Objekte (z. B. Personen) ausgerichtet ist. MIVE führt zwei Schlüsselmodule ein: (i) Disentangled Multi-instance Sampling (DMS) zur Verhinderung von Bearbeitungsleckagen und (ii) Instance-centric Probability Redistribution (IPR) zur präzisen Lokalisierung und treuen Bearbeitung. Darüber hinaus präsentieren wir unseren neuen MIVE-Datensatz mit vielfältigen Videoszenarien und führen den Cross-Instance Accuracy (CIA) Score ein, um Bearbeitungsleckagen bei Multi-Instance-Videobearbeitungsaufgaben zu bewerten. Unsere umfangreichen qualitative, quantitativen und Benutzerstudien zeigen, dass MIVE in Bezug auf Bearbeitungstreue, Genauigkeit und Leckageverhütung signifikant besser abschneidet als aktuelle State-of-the-Art-Methoden und damit einen neuen Maßstab für die Multi-Instance-Videobearbeitung setzt. Die Projektseite ist unter https://kaist-viclab.github.io/mive-site/ verfügbar.
English
Recent AI-based video editing has enabled users to edit videos through simple
text prompts, significantly simplifying the editing process. However, recent
zero-shot video editing techniques primarily focus on global or single-object
edits, which can lead to unintended changes in other parts of the video. When
multiple objects require localized edits, existing methods face challenges,
such as unfaithful editing, editing leakage, and lack of suitable evaluation
datasets and metrics. To overcome these limitations, we propose a zero-shot
Multi-Instance Video Editing
framework, called MIVE. MIVE is a general-purpose mask-based framework, not
dedicated to specific objects (e.g., people). MIVE introduces two key modules:
(i) Disentangled Multi-instance Sampling (DMS) to prevent editing leakage and
(ii) Instance-centric Probability Redistribution (IPR) to ensure precise
localization and faithful editing. Additionally, we present our new MIVE
Dataset featuring diverse video scenarios and introduce the Cross-Instance
Accuracy (CIA) Score to evaluate editing leakage in multi-instance video
editing tasks. Our extensive qualitative, quantitative, and user study
evaluations demonstrate that MIVE significantly outperforms recent
state-of-the-art methods in terms of editing faithfulness, accuracy, and
leakage prevention, setting a new benchmark for multi-instance video editing.
The project page is available at https://kaist-viclab.github.io/mive-site/Summary
AI-Generated Summary