MIVE: Nieuw Ontwerp en Referentiepunt voor Video Bewerking met Meerdere Instanties
MIVE: New Design and Benchmark for Multi-Instance Video Editing
December 17, 2024
Auteurs: Samuel Teodoro, Agus Gunawan, Soo Ye Kim, Jihyong Oh, Munchurl Kim
cs.AI
Samenvatting
Recente op AI gebaseerde videobewerking heeft gebruikers in staat gesteld om video's te bewerken via eenvoudige tekstopdrachten, waardoor het bewerkingsproces aanzienlijk wordt vereenvoudigd. Echter, recente zero-shot videobewerkingstechnieken richten zich voornamelijk op wereldwijde of enkelvoudige objectbewerkingen, wat kan leiden tot onbedoelde veranderingen in andere delen van de video. Wanneer meerdere objecten lokale bewerkingen vereisen, worden bestaande methoden geconfronteerd met uitdagingen zoals ontrouwe bewerking, bewerkingslekken en een gebrek aan geschikte evaluatiedatasets en -metrieken. Om deze beperkingen te overwinnen, stellen we een zero-shot Multi-Instance Video Editing raamwerk voor, genaamd MIVE. MIVE is een algemeen maskergebaseerd raamwerk, niet toegewijd aan specifieke objecten (bijv. mensen). MIVE introduceert twee sleutelmodules: (i) Ontkoppelde Multi-instance Bemonstering (DMS) om bewerkingslekken te voorkomen en (ii) Instantiegerichte Waarschijnlijkheidsherziening (IPR) om nauwkeurige lokaliseren en trouwe bewerking te garanderen. Daarnaast presenteren we onze nieuwe MIVE Dataset met diverse videoscenario's en introduceren we de Cross-Instance Nauwkeurigheid (CIA) Score om bewerkingslekken te evalueren bij multi-instance videobewerkingstaken. Onze uitgebreide kwalitatieve, kwantitatieve en gebruikersstudies tonen aan dat MIVE aanzienlijk beter presteert dan recente state-of-the-art methoden op het gebied van bewerkingsgetrouwheid, nauwkeurigheid en lekpreventie, waarmee een nieuwe benchmark wordt vastgesteld voor multi-instance videobewerking. De projectpagina is beschikbaar op https://kaist-viclab.github.io/mive-site/
English
Recent AI-based video editing has enabled users to edit videos through simple
text prompts, significantly simplifying the editing process. However, recent
zero-shot video editing techniques primarily focus on global or single-object
edits, which can lead to unintended changes in other parts of the video. When
multiple objects require localized edits, existing methods face challenges,
such as unfaithful editing, editing leakage, and lack of suitable evaluation
datasets and metrics. To overcome these limitations, we propose a zero-shot
Multi-Instance Video Editing
framework, called MIVE. MIVE is a general-purpose mask-based framework, not
dedicated to specific objects (e.g., people). MIVE introduces two key modules:
(i) Disentangled Multi-instance Sampling (DMS) to prevent editing leakage and
(ii) Instance-centric Probability Redistribution (IPR) to ensure precise
localization and faithful editing. Additionally, we present our new MIVE
Dataset featuring diverse video scenarios and introduce the Cross-Instance
Accuracy (CIA) Score to evaluate editing leakage in multi-instance video
editing tasks. Our extensive qualitative, quantitative, and user study
evaluations demonstrate that MIVE significantly outperforms recent
state-of-the-art methods in terms of editing faithfulness, accuracy, and
leakage prevention, setting a new benchmark for multi-instance video editing.
The project page is available at https://kaist-viclab.github.io/mive-site/