ROSE : Suppression d'Objets avec Effets Secondaires dans les Vidéos
ROSE: Remove Objects with Side Effects in Videos
August 26, 2025
papers.authors: Chenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Hantang Liu, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao
cs.AI
papers.abstract
La suppression d'objets dans les vidéos a atteint des performances avancées grâce aux récents succès des modèles génératifs vidéo. Cependant, lorsqu'il s'agit de traiter les effets secondaires des objets, tels que leurs ombres et réflexions, les travaux existants peinent à éliminer ces effets en raison de la rareté des données vidéo appariées utilisées comme supervision. Cet article présente ROSE, acronyme de Remove Objects with Side Effects, un cadre qui étudie systématiquement les effets des objets sur l'environnement, lesquels peuvent être catégorisés en cinq cas courants : ombres, réflexions, lumière, translucidité et miroir. Face aux défis liés à la curation de vidéos appariées présentant ces effets, nous exploitons un moteur de rendu 3D pour la génération de données synthétiques. Nous construisons soigneusement un pipeline entièrement automatique pour la préparation des données, simulant un ensemble de données appariées à grande échelle avec des scènes, objets, angles de prise de vue et trajectoires de caméra variés. ROSE est implémenté comme un modèle de réparation vidéo basé sur un transformateur de diffusion. Pour localiser toutes les zones corrélées aux objets, la vidéo entière est introduite dans le modèle pour une suppression basée sur la référence. De plus, une supervision supplémentaire est introduite pour prédire explicitement les zones affectées par les effets secondaires, qui peuvent être révélées par le masque différentiel entre les vidéos appariées. Pour étudier pleinement les performances du modèle sur l'élimination de divers effets secondaires, nous présentons un nouveau benchmark, baptisé ROSE-Bench, intégrant à la fois des scènes courantes et les cinq effets secondaires spécifiques pour une évaluation complète. Les résultats expérimentaux démontrent que ROSE atteint des performances supérieures par rapport aux modèles existants de suppression d'objets vidéo et généralise bien aux scénarios vidéo du monde réel. La page du projet est disponible à l'adresse suivante : https://rose2025-inpaint.github.io/.
English
Video object removal has achieved advanced performance due to the recent
success of video generative models. However, when addressing the side effects
of objects, e.g., their shadows and reflections, existing works struggle to
eliminate these effects for the scarcity of paired video data as supervision.
This paper presents ROSE, termed Remove Objects with Side Effects, a framework
that systematically studies the object's effects on environment, which can be
categorized into five common cases: shadows, reflections, light, translucency
and mirror. Given the challenges of curating paired videos exhibiting the
aforementioned effects, we leverage a 3D rendering engine for synthetic data
generation. We carefully construct a fully-automatic pipeline for data
preparation, which simulates a large-scale paired dataset with diverse scenes,
objects, shooting angles, and camera trajectories. ROSE is implemented as an
video inpainting model built on diffusion transformer. To localize all
object-correlated areas, the entire video is fed into the model for
reference-based erasing. Moreover, additional supervision is introduced to
explicitly predict the areas affected by side effects, which can be revealed
through the differential mask between the paired videos. To fully investigate
the model performance on various side effect removal, we presents a new
benchmark, dubbed ROSE-Bench, incorporating both common scenarios and the five
special side effects for comprehensive evaluation. Experimental results
demonstrate that ROSE achieves superior performance compared to existing video
object erasing models and generalizes well to real-world video scenarios. The
project page is https://rose2025-inpaint.github.io/.