EffectErase: Remoção e Inserção Conjunta de Objetos em Vídeo para Apagamento de Efeitos de Alta Qualidade

Resumo

A remoção de objetos em vídeo tem como objetivo eliminar objetos-alvo dinâmicos e seus efeitos visuais, como deformação, sombras e reflexos, restaurando simultaneamente fundos contínuos. Métodos recentes de preenchimento de vídeo e remoção de objetos baseados em difusão conseguem remover os objetos, mas frequentemente têm dificuldade em apagar esses efeitos e sintetizar fundos coerentes. Para além das limitações metodológicas, o progresso é ainda dificultado pela falta de um conjunto de dados abrangente que capture sistematicamente os efeitos comuns de objetos em diversos ambientes para treino e avaliação. Para resolver esta questão, apresentamos o VOR (Video Object Removal), um conjunto de dados em larga escala que fornece vídeos emparelhados diversificados. Cada par consiste num vídeo onde o objeto-alvo está presente com os seus efeitos e numa contraparte onde o objeto e os efeitos estão ausentes, com máscaras de objeto correspondentes. O VOR contém 60 mil pares de vídeos de alta qualidade de fontes capturadas e sintéticas, abrange cinco tipos de efeitos e inclui uma ampla gama de categorias de objetos, bem como cenas dinâmicas e complexas com múltiplos objetos. Com base no VOR, propomos o EffectErase, um método de remoção de objetos em vídeo consciente dos efeitos, que trata a inserção de vídeo como a tarefa auxiliar inversa dentro de um esquema de aprendizagem recíproca. O modelo inclui uma orientação de região consciente da tarefa que concentra a aprendizagem nas áreas afetadas e permite uma comutação flexível de tarefas. Em seguida, um objetivo de consistência inserção-remoção que incentiva comportamentos complementares e a localização partilhada de regiões de efeito e pistas estruturais. Treinado no VOR, o EffectErase alcança um desempenho superior em experiências extensivas, proporcionando uma eliminação de alta qualidade de efeitos de objetos em vídeo em diversos cenários.

English

Video object removal aims to eliminate dynamic target objects and their visual effects, such as deformation, shadows, and reflections, while restoring seamless backgrounds. Recent diffusion-based video inpainting and object removal methods can remove the objects but often struggle to erase these effects and to synthesize coherent backgrounds. Beyond method limitations, progress is further hampered by the lack of a comprehensive dataset that systematically captures common object effects across varied environments for training and evaluation. To address this, we introduce VOR (Video Object Removal), a large-scale dataset that provides diverse paired videos, each consisting of one video where the target object is present with its effects and a counterpart where the object and effects are absent, with corresponding object masks. VOR contains 60K high-quality video pairs from captured and synthetic sources, covers five effects types, and spans a wide range of object categories as well as complex, dynamic multi-object scenes. Building on VOR, we propose EffectErase, an effect-aware video object removal method that treats video object insertion as the inverse auxiliary task within a reciprocal learning scheme. The model includes task-aware region guidance that focuses learning on affected areas and enables flexible task switching. Then, an insertion-removal consistency objective that encourages complementary behaviors and shared localization of effect regions and structural cues. Trained on VOR, EffectErase achieves superior performance in extensive experiments, delivering high-quality video object effect erasing across diverse scenarios.

EffectErase: Remoção e Inserção Conjunta de Objetos em Vídeo para Apagamento de Efeitos de Alta Qualidade

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

Resumo

Support