EffectErase: Gezamenlijke verwijdering en invoeging van video-objecten voor hoogwaardig wissen van effecten

Samenvatting

Het verwijderen van objecten uit video's heeft als doel dynamische doelobjecten en hun visuele effecten, zoals vervorming, schaduwen en reflecties, te elimineren, terwijl naadloze achtergronden worden hersteld. Recente op diffusie gebaseerde methoden voor video-inpainting en objectverwijdering kunnen de objecten wel verwijderen, maar hebben vaak moeite om deze effecten uit te wissen en samenhangende achtergronden te synthetiseren. Naast methodologische beperkingen wordt de vooruitgang verder belemmerd door het ontbreken van een uitgebreide dataset die gemeenschappelijke objecteffecten in verschillende omgevingen systematisch vastlegt voor training en evaluatie. Om dit aan te pakken, introduceren we VOR (Video Object Removal), een grootschalige dataset die diverse gepaarde video's biedt. Elke paar bestaat uit een video waarin het doelobject met zijn effecten aanwezig is, en een tegenhanger waarin het object en de effecten afwezig zijn, met bijbehorende objectmaskers. VOR bevat 60.000 hoogwaardige videoparen uit opgenomen en synthetische bronnen, bestrijkt vijf type effecten, en omvat een breed scala aan objectcategorieën evenals complexe, dynamische multi-objectscènes. Op basis van VOR stellen we EffectErase voor, een effectbewuste methode voor het verwijderen van objecten uit video's, die het invoegen van video-objecten behandelt als de inverse hulptaak binnen een wederkerig leerprogramma. Het model omvat taakbewuste regioguidance die het leren richt op beïnvloede gebieden en flexibele taakwisseling mogelijk maakt. Vervolgens een consistentiedoelstelling voor invoegen-verwijderen die complementair gedrag en gedeelde lokalisatie van effectgebieden en structurele aanwijzingen bevordert. Getraind op VOR behaalt EffectErase superieure prestaties in uitgebreide experimenten en levert hoogwaardige uitwissing van video-objecteffecten in diverse scenario's.

English

Video object removal aims to eliminate dynamic target objects and their visual effects, such as deformation, shadows, and reflections, while restoring seamless backgrounds. Recent diffusion-based video inpainting and object removal methods can remove the objects but often struggle to erase these effects and to synthesize coherent backgrounds. Beyond method limitations, progress is further hampered by the lack of a comprehensive dataset that systematically captures common object effects across varied environments for training and evaluation. To address this, we introduce VOR (Video Object Removal), a large-scale dataset that provides diverse paired videos, each consisting of one video where the target object is present with its effects and a counterpart where the object and effects are absent, with corresponding object masks. VOR contains 60K high-quality video pairs from captured and synthetic sources, covers five effects types, and spans a wide range of object categories as well as complex, dynamic multi-object scenes. Building on VOR, we propose EffectErase, an effect-aware video object removal method that treats video object insertion as the inverse auxiliary task within a reciprocal learning scheme. The model includes task-aware region guidance that focuses learning on affected areas and enables flexible task switching. Then, an insertion-removal consistency objective that encourages complementary behaviors and shared localization of effect regions and structural cues. Trained on VOR, EffectErase achieves superior performance in extensive experiments, delivering high-quality video object effect erasing across diverse scenarios.

EffectErase: Gezamenlijke verwijdering en invoeging van video-objecten voor hoogwaardig wissen van effecten

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

Samenvatting

Support