EffectErase: Совместное удаление и вставка объектов в видео для высококачественного удаления эффектов

Аннотация

Задача удаления объектов из видео заключается в устранении динамических целевых объектов и их визуальных эффектов, таких как деформация, тени и отражения, с одновременным восстановлением бесшовного фона. Современные методы видео-заполнения и удаления объектов на основе диффузионных моделей способны удалять объекты, но часто не справляются с устранением этих эффектов и синтезом согласованного фона. Помимо ограничений методов, прогресс дополнительно сдерживается отсутствием всеобъемлющего набора данных, который бы систематически фиксировал распространенные эффекты объектов в различных средах для обучения и оценки. Для решения этой проблемы мы представляем VOR (Video Object Removal) — масштабный набор данных, предоставляющий разнообразные парные видео. Каждая пара состоит из видео с присутствующим целевым объектом и его эффектами и соответствующего видео, где объект и эффекты отсутствуют, вместе с соответствующими масками объектов. VOR содержит 60 тысяч высококачественных видео-пар из реальных и синтетических источников, охватывает пять типов эффектов и включает широкий спектр категорий объектов, а также сложные динамические сцены с несколькими объектами. На основе VOR мы предлагаем EffectErase — метод удаления объектов из видео с учетом эффектов, который рассматривает вставку объектов в видео как обратную вспомогательную задачу в схеме взаимного обучения. Модель включает ориентированное на задачу региональное руководство, которое фокусирует обучение на затронутых областях и обеспечивает гибкое переключение между задачами, а также цель согласованности между вставкой и удалением, которая поощряет комплементарное поведение и общую локализацию областей эффектов и структурных ключей. Обученный на VOR, метод EffectErase демонстрирует превосходную производительность в обширных экспериментах, обеспечивая высококачественное удаление эффектов объектов из видео в различных сценариях.

English

Video object removal aims to eliminate dynamic target objects and their visual effects, such as deformation, shadows, and reflections, while restoring seamless backgrounds. Recent diffusion-based video inpainting and object removal methods can remove the objects but often struggle to erase these effects and to synthesize coherent backgrounds. Beyond method limitations, progress is further hampered by the lack of a comprehensive dataset that systematically captures common object effects across varied environments for training and evaluation. To address this, we introduce VOR (Video Object Removal), a large-scale dataset that provides diverse paired videos, each consisting of one video where the target object is present with its effects and a counterpart where the object and effects are absent, with corresponding object masks. VOR contains 60K high-quality video pairs from captured and synthetic sources, covers five effects types, and spans a wide range of object categories as well as complex, dynamic multi-object scenes. Building on VOR, we propose EffectErase, an effect-aware video object removal method that treats video object insertion as the inverse auxiliary task within a reciprocal learning scheme. The model includes task-aware region guidance that focuses learning on affected areas and enables flexible task switching. Then, an insertion-removal consistency objective that encourages complementary behaviors and shared localization of effect regions and structural cues. Trained on VOR, EffectErase achieves superior performance in extensive experiments, delivering high-quality video object effect erasing across diverse scenarios.

EffectErase: Совместное удаление и вставка объектов в видео для высококачественного удаления эффектов

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

Аннотация

Support