EffectErase: Gemeinsame Videoobjektentfernung und -einfügung für hochwertiges Effektlöschen

Zusammenfassung

Die Entfernung von Videoobjekten zielt darauf ab, dynamische Zielobjekte und deren visuelle Effekte wie Verformungen, Schatten und Reflexionen zu beseitigen und dabei nahtlose Hintergründe wiederherzustellen. Aktuelle diffusionsbasierte Videoinpainting- und Objektentfernungsmethoden können die Objekte entfernen, haben jedoch oft Schwierigkeiten, diese Effekte zu löschen und kohärente Hintergründe zu synthetisieren. Neben methodischen Einschränkungen wird der Fortschritt weiterhin durch das Fehlen eines umfassenden Datensatzes behindert, der systematisch häufige Objekteffekte in verschiedenen Umgebungen für Training und Evaluation erfasst. Um dies zu beheben, stellen wir VOR (Video Object Removal) vor, einen groß angelegten Datensatz, der vielfältige gepaarte Videos bereitstellt. Jedes Paar besteht aus einem Video, in dem das Zielobjekt mit seinen Effekten vorhanden ist, und einem Gegenstück, in dem das Objekt und die Effekte fehlen, samt entsprechender Objektmasken. VOR umfasst 60.000 hochwertige Videopaare aus realen Aufnahmen und synthetischen Quellen, deckt fünf Effekttypen ab und erstreckt sich über eine breite Palette von Objektkategorien sowie komplexe, dynamische Multi-Objektszenen. Aufbauend auf VOR schlagen wir EffectErase vor, eine effektbewusste Methode zur Videoobjektentfernung, die das Einfügen von Videoobjekten als inverse Hilfsaufgabe innerhalb eines reziproken Lernschemas behandelt. Das Modell beinhaltet eine aufgabenbewusste Bereichslenkung, die das Lernen auf betroffene Bereiche fokussiert und flexibles Aufgabenwechseln ermöglicht. Zudem wird ein Einfüge-Entfernungs-Konsistenzziel verfolgt, das komplementäres Verhalten sowie gemeinsame Lokalisierung von Effektbereichen und strukturellen Hinweisen fördert. Auf VOR trainiert erzielt EffectErase in umfangreichen Experimenten überlegene Leistung und ermöglicht eine hochwertige Löschung von Videoobjekteffekten in diversen Szenarien.

English

Video object removal aims to eliminate dynamic target objects and their visual effects, such as deformation, shadows, and reflections, while restoring seamless backgrounds. Recent diffusion-based video inpainting and object removal methods can remove the objects but often struggle to erase these effects and to synthesize coherent backgrounds. Beyond method limitations, progress is further hampered by the lack of a comprehensive dataset that systematically captures common object effects across varied environments for training and evaluation. To address this, we introduce VOR (Video Object Removal), a large-scale dataset that provides diverse paired videos, each consisting of one video where the target object is present with its effects and a counterpart where the object and effects are absent, with corresponding object masks. VOR contains 60K high-quality video pairs from captured and synthetic sources, covers five effects types, and spans a wide range of object categories as well as complex, dynamic multi-object scenes. Building on VOR, we propose EffectErase, an effect-aware video object removal method that treats video object insertion as the inverse auxiliary task within a reciprocal learning scheme. The model includes task-aware region guidance that focuses learning on affected areas and enables flexible task switching. Then, an insertion-removal consistency objective that encourages complementary behaviors and shared localization of effect regions and structural cues. Trained on VOR, EffectErase achieves superior performance in extensive experiments, delivering high-quality video object effect erasing across diverse scenarios.

EffectErase: Gemeinsame Videoobjektentfernung und -einfügung für hochwertiges Effektlöschen

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

Zusammenfassung

Support