MIVE: Nuevo Diseño y Evaluación de Referencia para la Edición de Video de Instancias Múltiples
MIVE: New Design and Benchmark for Multi-Instance Video Editing
December 17, 2024
Autores: Samuel Teodoro, Agus Gunawan, Soo Ye Kim, Jihyong Oh, Munchurl Kim
cs.AI
Resumen
La reciente edición de video basada en IA ha permitido a los usuarios editar videos a través de simples indicaciones de texto, simplificando significativamente el proceso de edición. Sin embargo, las técnicas recientes de edición de video sin entrenamiento se centran principalmente en ediciones globales o de un solo objeto, lo que puede provocar cambios no deseados en otras partes del video. Cuando varios objetos requieren ediciones localizadas, los métodos existentes enfrentan desafíos, como ediciones no fieles, filtraciones de edición y la falta de conjuntos de datos y métricas de evaluación adecuados. Para superar estas limitaciones, proponemos un marco de edición de video de múltiples instancias sin entrenamiento, llamado MIVE. MIVE es un marco basado en máscaras de propósito general, no dedicado a objetos específicos (por ejemplo, personas). MIVE introduce dos módulos clave: (i) Muestreo de múltiples instancias desacoplado (DMS) para prevenir filtraciones de edición y (ii) Redistribución de Probabilidad Centrada en Instancias (IPR) para garantizar una localización precisa y una edición fiel. Además, presentamos nuestro nuevo Conjunto de Datos MIVE que presenta diversos escenarios de video e introducimos el Puntaje de Precisión entre Instancias (CIA) para evaluar filtraciones de edición en tareas de edición de video de múltiples instancias. Nuestras extensas evaluaciones cualitativas, cuantitativas y de estudios de usuarios demuestran que MIVE supera significativamente a los métodos recientes de vanguardia en cuanto a fidelidad de edición, precisión y prevención de filtraciones, estableciendo un nuevo punto de referencia para la edición de video de múltiples instancias. La página del proyecto está disponible en https://kaist-viclab.github.io/mive-site/
English
Recent AI-based video editing has enabled users to edit videos through simple
text prompts, significantly simplifying the editing process. However, recent
zero-shot video editing techniques primarily focus on global or single-object
edits, which can lead to unintended changes in other parts of the video. When
multiple objects require localized edits, existing methods face challenges,
such as unfaithful editing, editing leakage, and lack of suitable evaluation
datasets and metrics. To overcome these limitations, we propose a zero-shot
Multi-Instance Video Editing
framework, called MIVE. MIVE is a general-purpose mask-based framework, not
dedicated to specific objects (e.g., people). MIVE introduces two key modules:
(i) Disentangled Multi-instance Sampling (DMS) to prevent editing leakage and
(ii) Instance-centric Probability Redistribution (IPR) to ensure precise
localization and faithful editing. Additionally, we present our new MIVE
Dataset featuring diverse video scenarios and introduce the Cross-Instance
Accuracy (CIA) Score to evaluate editing leakage in multi-instance video
editing tasks. Our extensive qualitative, quantitative, and user study
evaluations demonstrate that MIVE significantly outperforms recent
state-of-the-art methods in terms of editing faithfulness, accuracy, and
leakage prevention, setting a new benchmark for multi-instance video editing.
The project page is available at https://kaist-viclab.github.io/mive-site/Summary
AI-Generated Summary