EffectErase: Eliminación e Inserción Conjunta de Objetos en Video para el Borrado de Efectos de Alta Calidad

Resumen

La eliminación de objetos en video tiene como objetivo eliminar los objetos dinámicos objetivo y sus efectos visuales, como deformaciones, sombras y reflejos, mientras se restauran fondos perfectos. Los métodos recientes de inpaintin de video y eliminación de objetos basados en difusión pueden eliminar los objetos, pero a menudo tienen dificultades para borrar estos efectos y sintetizar fondos coherentes. Más allá de las limitaciones metodológicas, el progreso se ve frenado además por la falta de un conjunto de datos integral que capture sistemáticamente los efectos comunes de los objetos en diversos entornos para entrenamiento y evaluación. Para abordar esto, presentamos VOR (Video Object Removal), un conjunto de datos a gran escala que proporciona videos emparejados diversos; cada par consiste en un video donde el objeto objetivo está presente con sus efectos y una contraparte donde el objeto y los efectos están ausentes, con máscaras de objeto correspondientes. VOR contiene 60K pares de videos de alta calidad de fuentes capturadas y sintéticas, cubre cinco tipos de efectos y abarca una amplia gama de categorías de objetos, así como escenas dinámicas y complejas con múltiples objetos. Basándonos en VOR, proponemos EffectErase, un método de eliminación de objetos en video consciente de los efectos, que trata la inserción de objetos en video como la tarea auxiliar inversa dentro de un esquema de aprendizaje recíproco. El modelo incluye una guía de región sensible a la tarea que enfoca el aprendizaje en las áreas afectadas y permite un cambio flexible de tarea. Además, incorpora un objetivo de consistencia inserción-eliminación que fomenta comportamientos complementarios y la localización compartida de regiones de efecto y claves estructurales. Entrenado en VOR, EffectErase logra un rendimiento superior en experimentos exhaustivos, ofreciendo una eliminación de efectos de objetos en video de alta calidad en diversos escenarios.

English

Video object removal aims to eliminate dynamic target objects and their visual effects, such as deformation, shadows, and reflections, while restoring seamless backgrounds. Recent diffusion-based video inpainting and object removal methods can remove the objects but often struggle to erase these effects and to synthesize coherent backgrounds. Beyond method limitations, progress is further hampered by the lack of a comprehensive dataset that systematically captures common object effects across varied environments for training and evaluation. To address this, we introduce VOR (Video Object Removal), a large-scale dataset that provides diverse paired videos, each consisting of one video where the target object is present with its effects and a counterpart where the object and effects are absent, with corresponding object masks. VOR contains 60K high-quality video pairs from captured and synthetic sources, covers five effects types, and spans a wide range of object categories as well as complex, dynamic multi-object scenes. Building on VOR, we propose EffectErase, an effect-aware video object removal method that treats video object insertion as the inverse auxiliary task within a reciprocal learning scheme. The model includes task-aware region guidance that focuses learning on affected areas and enables flexible task switching. Then, an insertion-removal consistency objective that encourages complementary behaviors and shared localization of effect regions and structural cues. Trained on VOR, EffectErase achieves superior performance in extensive experiments, delivering high-quality video object effect erasing across diverse scenarios.

EffectErase: Eliminación e Inserción Conjunta de Objetos en Video para el Borrado de Efectos de Alta Calidad

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

Resumen

Support