ChatPaper.aiChatPaper

MIVE: Nuevo Diseño y Evaluación de Referencia para la Edición de Video de Instancias Múltiples

MIVE: New Design and Benchmark for Multi-Instance Video Editing

December 17, 2024
Autores: Samuel Teodoro, Agus Gunawan, Soo Ye Kim, Jihyong Oh, Munchurl Kim
cs.AI

Resumen

La reciente edición de video basada en IA ha permitido a los usuarios editar videos a través de simples indicaciones de texto, simplificando significativamente el proceso de edición. Sin embargo, las técnicas recientes de edición de video sin entrenamiento se centran principalmente en ediciones globales o de un solo objeto, lo que puede provocar cambios no deseados en otras partes del video. Cuando varios objetos requieren ediciones localizadas, los métodos existentes enfrentan desafíos, como ediciones no fieles, filtraciones de edición y la falta de conjuntos de datos y métricas de evaluación adecuados. Para superar estas limitaciones, proponemos un marco de edición de video de múltiples instancias sin entrenamiento, llamado MIVE. MIVE es un marco basado en máscaras de propósito general, no dedicado a objetos específicos (por ejemplo, personas). MIVE introduce dos módulos clave: (i) Muestreo de múltiples instancias desacoplado (DMS) para prevenir filtraciones de edición y (ii) Redistribución de Probabilidad Centrada en Instancias (IPR) para garantizar una localización precisa y una edición fiel. Además, presentamos nuestro nuevo Conjunto de Datos MIVE que presenta diversos escenarios de video e introducimos el Puntaje de Precisión entre Instancias (CIA) para evaluar filtraciones de edición en tareas de edición de video de múltiples instancias. Nuestras extensas evaluaciones cualitativas, cuantitativas y de estudios de usuarios demuestran que MIVE supera significativamente a los métodos recientes de vanguardia en cuanto a fidelidad de edición, precisión y prevención de filtraciones, estableciendo un nuevo punto de referencia para la edición de video de múltiples instancias. La página del proyecto está disponible en https://kaist-viclab.github.io/mive-site/
English
Recent AI-based video editing has enabled users to edit videos through simple text prompts, significantly simplifying the editing process. However, recent zero-shot video editing techniques primarily focus on global or single-object edits, which can lead to unintended changes in other parts of the video. When multiple objects require localized edits, existing methods face challenges, such as unfaithful editing, editing leakage, and lack of suitable evaluation datasets and metrics. To overcome these limitations, we propose a zero-shot Multi-Instance Video Editing framework, called MIVE. MIVE is a general-purpose mask-based framework, not dedicated to specific objects (e.g., people). MIVE introduces two key modules: (i) Disentangled Multi-instance Sampling (DMS) to prevent editing leakage and (ii) Instance-centric Probability Redistribution (IPR) to ensure precise localization and faithful editing. Additionally, we present our new MIVE Dataset featuring diverse video scenarios and introduce the Cross-Instance Accuracy (CIA) Score to evaluate editing leakage in multi-instance video editing tasks. Our extensive qualitative, quantitative, and user study evaluations demonstrate that MIVE significantly outperforms recent state-of-the-art methods in terms of editing faithfulness, accuracy, and leakage prevention, setting a new benchmark for multi-instance video editing. The project page is available at https://kaist-viclab.github.io/mive-site/

Summary

AI-Generated Summary

PDF42December 18, 2024