MIVE: Nieuw Ontwerp en Referentiepunt voor Video Bewerking met Meerdere Instanties

Samenvatting

Recente op AI gebaseerde videobewerking heeft gebruikers in staat gesteld om video's te bewerken via eenvoudige tekstopdrachten, waardoor het bewerkingsproces aanzienlijk wordt vereenvoudigd. Echter, recente zero-shot videobewerkingstechnieken richten zich voornamelijk op wereldwijde of enkelvoudige objectbewerkingen, wat kan leiden tot onbedoelde veranderingen in andere delen van de video. Wanneer meerdere objecten lokale bewerkingen vereisen, worden bestaande methoden geconfronteerd met uitdagingen zoals ontrouwe bewerking, bewerkingslekken en een gebrek aan geschikte evaluatiedatasets en -metrieken. Om deze beperkingen te overwinnen, stellen we een zero-shot Multi-Instance Video Editing raamwerk voor, genaamd MIVE. MIVE is een algemeen maskergebaseerd raamwerk, niet toegewijd aan specifieke objecten (bijv. mensen). MIVE introduceert twee sleutelmodules: (i) Ontkoppelde Multi-instance Bemonstering (DMS) om bewerkingslekken te voorkomen en (ii) Instantiegerichte Waarschijnlijkheidsherziening (IPR) om nauwkeurige lokaliseren en trouwe bewerking te garanderen. Daarnaast presenteren we onze nieuwe MIVE Dataset met diverse videoscenario's en introduceren we de Cross-Instance Nauwkeurigheid (CIA) Score om bewerkingslekken te evalueren bij multi-instance videobewerkingstaken. Onze uitgebreide kwalitatieve, kwantitatieve en gebruikersstudies tonen aan dat MIVE aanzienlijk beter presteert dan recente state-of-the-art methoden op het gebied van bewerkingsgetrouwheid, nauwkeurigheid en lekpreventie, waarmee een nieuwe benchmark wordt vastgesteld voor multi-instance videobewerking. De projectpagina is beschikbaar op https://kaist-viclab.github.io/mive-site/

English

Recent AI-based video editing has enabled users to edit videos through simple text prompts, significantly simplifying the editing process. However, recent zero-shot video editing techniques primarily focus on global or single-object edits, which can lead to unintended changes in other parts of the video. When multiple objects require localized edits, existing methods face challenges, such as unfaithful editing, editing leakage, and lack of suitable evaluation datasets and metrics. To overcome these limitations, we propose a zero-shot Multi-Instance Video Editing framework, called MIVE. MIVE is a general-purpose mask-based framework, not dedicated to specific objects (e.g., people). MIVE introduces two key modules: (i) Disentangled Multi-instance Sampling (DMS) to prevent editing leakage and (ii) Instance-centric Probability Redistribution (IPR) to ensure precise localization and faithful editing. Additionally, we present our new MIVE Dataset featuring diverse video scenarios and introduce the Cross-Instance Accuracy (CIA) Score to evaluate editing leakage in multi-instance video editing tasks. Our extensive qualitative, quantitative, and user study evaluations demonstrate that MIVE significantly outperforms recent state-of-the-art methods in terms of editing faithfulness, accuracy, and leakage prevention, setting a new benchmark for multi-instance video editing. The project page is available at https://kaist-viclab.github.io/mive-site/

MIVE: Nieuw Ontwerp en Referentiepunt voor Video Bewerking met Meerdere Instanties

MIVE: New Design and Benchmark for Multi-Instance Video Editing

Samenvatting

Support