ChatPaper.aiChatPaper

MIVE: Новый дизайн и бенчмарк для многозадачного видеомонтажа

MIVE: New Design and Benchmark for Multi-Instance Video Editing

December 17, 2024
Авторы: Samuel Teodoro, Agus Gunawan, Soo Ye Kim, Jihyong Oh, Munchurl Kim
cs.AI

Аннотация

Недавние AI-основанные методы видеомонтажа позволяют пользователям редактировать видео с помощью простых текстовых подсказок, значительно упрощая процесс редактирования. Однако недавние техники нулевого видеомонтажа в основном сосредотачиваются на глобальных или одиночных объектах, что может привести к непреднамеренным изменениям в других частях видео. Когда требуется локализованный монтаж нескольких объектов, существующие методы сталкиваются с вызовами, такими как недостоверный монтаж, утечка монтажа и отсутствие подходящих наборов данных и метрик для оценки. Для преодоления этих ограничений мы предлагаем рамочную модель нулевого монтажа видео с множеством экземпляров, названную MIVE. MIVE является универсальной рамочной моделью на основе масок, не посвященной конкретным объектам (например, людям). MIVE вводит два ключевых модуля: (i) Дезентанглированная выборка множественных экземпляров (DMS) для предотвращения утечки монтажа и (ii) Перераспределение вероятности по экземплярам (IPR) для обеспечения точной локализации и надежного монтажа. Кроме того, мы представляем наш новый набор данных MIVE, включающий разнообразные сценарии видео, и представляем оценочный показатель Cross-Instance Accuracy (CIA) для оценки утечки монтажа в задачах множественного монтажа видео. Наши обширные качественные, количественные и пользовательские исследования демонстрируют, что MIVE значительно превосходит недавние передовые методы в плане надежности монтажа, точности и предотвращения утечки, устанавливая новый стандарт для множественного монтажа видео. Страница проекта доступна по адресу https://kaist-viclab.github.io/mive-site/
English
Recent AI-based video editing has enabled users to edit videos through simple text prompts, significantly simplifying the editing process. However, recent zero-shot video editing techniques primarily focus on global or single-object edits, which can lead to unintended changes in other parts of the video. When multiple objects require localized edits, existing methods face challenges, such as unfaithful editing, editing leakage, and lack of suitable evaluation datasets and metrics. To overcome these limitations, we propose a zero-shot Multi-Instance Video Editing framework, called MIVE. MIVE is a general-purpose mask-based framework, not dedicated to specific objects (e.g., people). MIVE introduces two key modules: (i) Disentangled Multi-instance Sampling (DMS) to prevent editing leakage and (ii) Instance-centric Probability Redistribution (IPR) to ensure precise localization and faithful editing. Additionally, we present our new MIVE Dataset featuring diverse video scenarios and introduce the Cross-Instance Accuracy (CIA) Score to evaluate editing leakage in multi-instance video editing tasks. Our extensive qualitative, quantitative, and user study evaluations demonstrate that MIVE significantly outperforms recent state-of-the-art methods in terms of editing faithfulness, accuracy, and leakage prevention, setting a new benchmark for multi-instance video editing. The project page is available at https://kaist-viclab.github.io/mive-site/

Summary

AI-Generated Summary

PDF42December 18, 2024