EffectErase : Suppression et insertion conjointes d'objets vidéo pour une élimination haute qualité d'effets
EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing
March 19, 2026
Auteurs: Yang Fu, Yike Zheng, Ziyun Dai, Henghui Ding
cs.AI
Résumé
La suppression d'objets vidéo vise à éliminer les objets cibles dynamiques et leurs effets visuels, tels que la déformation, les ombres et les réflexions, tout en restaurant des arrière-plans homogènes. Les méthodes récentes de retouche vidéo et de suppression d'objets basées sur la diffusion parviennent à supprimer les objets mais peinent souvent à effacer ces effets et à synthétiser des arrière-plans cohérents. Au-delà des limitations méthodologiques, les progrès sont freinés par l'absence d'un jeu de données complet capturant systématiquement les effets d'objets courants dans divers environnements pour l'entraînement et l'évaluation. Pour y remédier, nous présentons VOR (Video Object Removal), un jeu de données à grande échelle offrant des vidéos appariées variées. Chaque paire comprend une vidéo où l'objet cible est présent avec ses effets et une contrepartie où l'objet et ses effets sont absents, avec des masques d'objets correspondants. VOR contient 60 000 paires de vidéos de haute qualité provenant de sources capturées et synthétiques, couvre cinq types d'effets, et inclut un large éventail de catégories d'objets ainsi que des scènes multi-objets dynamiques complexes. Sur la base de VOR, nous proposons EffectErase, une méthode de suppression d'objets vidéo sensible aux effets, qui traite l'insertion d'objets vidéo comme tâche auxiliaire inverse dans un schéma d'apprentissage réciproque. Le modèle intègre un guidage régional adapté aux tâches qui concentre l'apprentissage sur les zones affectées et permet une commutation flexible des tâches. Ensuite, un objectif de cohérence insertion-suppression encourage des comportements complémentaires et une localisation partagée des régions d'effets et des indices structurels. Entraîné sur VOR, EffectErase obtient des performances supérieures dans des expériences approfondies, fournissant un effacement de haute qualité des effets d'objets vidéo dans divers scénarios.
English
Video object removal aims to eliminate dynamic target objects and their visual effects, such as deformation, shadows, and reflections, while restoring seamless backgrounds. Recent diffusion-based video inpainting and object removal methods can remove the objects but often struggle to erase these effects and to synthesize coherent backgrounds. Beyond method limitations, progress is further hampered by the lack of a comprehensive dataset that systematically captures common object effects across varied environments for training and evaluation. To address this, we introduce VOR (Video Object Removal), a large-scale dataset that provides diverse paired videos, each consisting of one video where the target object is present with its effects and a counterpart where the object and effects are absent, with corresponding object masks. VOR contains 60K high-quality video pairs from captured and synthetic sources, covers five effects types, and spans a wide range of object categories as well as complex, dynamic multi-object scenes. Building on VOR, we propose EffectErase, an effect-aware video object removal method that treats video object insertion as the inverse auxiliary task within a reciprocal learning scheme. The model includes task-aware region guidance that focuses learning on affected areas and enables flexible task switching. Then, an insertion-removal consistency objective that encourages complementary behaviors and shared localization of effect regions and structural cues. Trained on VOR, EffectErase achieves superior performance in extensive experiments, delivering high-quality video object effect erasing across diverse scenarios.