EffectErase: Rimozione e Inserimento Congiunto di Oggetti Video per la Cancellazione di Effetti di Alta Qualità

Abstract

La rimozione di oggetti video mira a eliminare oggetti dinamici bersaglio e i loro effetti visivi, come deformazioni, ombre e riflessi, ripristinando al contempo sfondi privi di discontinuità. I recenti metodi di inpaintning video e rimozione oggetti basati su modelli di diffusione riescono a rimuovere gli oggetti, ma spesso faticano a cancellare questi effetti e a sintetizzare sfondi coerenti. Oltre alle limitazioni metodologiche, i progressi sono ulteriormente ostacolati dalla mancanza di un dataset completo che catturi sistematicamente gli effetti comuni degli oggetti in ambienti variati per l'addestramento e la valutazione. Per affrontare questo problema, presentiamo VOR (Video Object Removal), un dataset su larga scala che fornisce video accoppiati e diversificati. Ciascuna coppia è composta da un video in cui l'oggetto bersaglio è presente con i suoi effetti e da una controparte in cui l'oggetto e gli effetti sono assenti, con le relative maschere dell'oggetto. VOR contiene 60.000 coppie video di alta qualità provenienti da fonti catturate e sintetiche, copre cinque tipi di effetti e spazia su un'ampia gamma di categorie di oggetti, nonché su scene complesse e dinamiche con più oggetti. Basandosi su VOR, proponiamo EffectErase, un metodo per la rimozione di oggetti video consapevole degli effetti, che tratta l'inserimento di oggetti video come compito ausiliario inverso all'interno di uno schema di apprendimento reciproco. Il modello include una guida regionale consapevole del compito che focalizza l'apprendimento sulle aree interessate e consente un commutazione flessibile tra i compiti. Inoltre, viene utilizzato un obiettivo di consistenza inserimento-rimozione che incoraggia comportamenti complementari e una localizzazione condivisa delle regioni di effetto e degli indizi strutturali. Addestrato su VOR, EffectErase raggiunge prestazioni superiori in esperimenti estensivi, fornendo una cancellazione di alta qualità degli effetti degli oggetti video in vari scenari.

English

Video object removal aims to eliminate dynamic target objects and their visual effects, such as deformation, shadows, and reflections, while restoring seamless backgrounds. Recent diffusion-based video inpainting and object removal methods can remove the objects but often struggle to erase these effects and to synthesize coherent backgrounds. Beyond method limitations, progress is further hampered by the lack of a comprehensive dataset that systematically captures common object effects across varied environments for training and evaluation. To address this, we introduce VOR (Video Object Removal), a large-scale dataset that provides diverse paired videos, each consisting of one video where the target object is present with its effects and a counterpart where the object and effects are absent, with corresponding object masks. VOR contains 60K high-quality video pairs from captured and synthetic sources, covers five effects types, and spans a wide range of object categories as well as complex, dynamic multi-object scenes. Building on VOR, we propose EffectErase, an effect-aware video object removal method that treats video object insertion as the inverse auxiliary task within a reciprocal learning scheme. The model includes task-aware region guidance that focuses learning on affected areas and enables flexible task switching. Then, an insertion-removal consistency objective that encourages complementary behaviors and shared localization of effect regions and structural cues. Trained on VOR, EffectErase achieves superior performance in extensive experiments, delivering high-quality video object effect erasing across diverse scenarios.

EffectErase: Rimozione e Inserimento Congiunto di Oggetti Video per la Cancellazione di Effetti di Alta Qualità

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

Abstract

Support