ROSE: Rimozione Oggetti con Effetti Collaterali nei Video
ROSE: Remove Objects with Side Effects in Videos
August 26, 2025
Autori: Chenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Hantang Liu, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao
cs.AI
Abstract
La rimozione di oggetti nei video ha raggiunto prestazioni avanzate grazie ai recenti successi dei modelli generativi video. Tuttavia, quando si affrontano gli effetti collaterali degli oggetti, come ombre e riflessi, i lavori esistenti faticano a eliminare questi effetti a causa della scarsità di dati video accoppiati come supervisione. Questo articolo presenta ROSE, acronimo di Remove Objects with Side Effects, un framework che studia sistematicamente gli effetti degli oggetti sull'ambiente, che possono essere categorizzati in cinque casi comuni: ombre, riflessi, luce, traslucenza e specchi. Data la difficoltà di curare video accoppiati che mostrano questi effetti, sfruttiamo un motore di rendering 3D per la generazione di dati sintetici. Abbiamo costruito con cura una pipeline completamente automatica per la preparazione dei dati, che simula un dataset accoppiato su larga scala con scene, oggetti, angoli di ripresa e traiettorie della fotocamera diversificati. ROSE è implementato come un modello di inpainting video basato su un transformer di diffusione. Per localizzare tutte le aree correlate agli oggetti, l'intero video viene inserito nel modello per una cancellazione basata su riferimenti. Inoltre, viene introdotta una supervisione aggiuntiva per prevedere esplicitamente le aree influenzate dagli effetti collaterali, che possono essere rivelate attraverso la maschera differenziale tra i video accoppiati. Per indagare a fondo le prestazioni del modello nella rimozione di vari effetti collaterali, presentiamo un nuovo benchmark, denominato ROSE-Bench, che incorpora sia scenari comuni che i cinque effetti collaterali speciali per una valutazione completa. I risultati sperimentali dimostrano che ROSE raggiunge prestazioni superiori rispetto ai modelli esistenti di cancellazione di oggetti nei video e si generalizza bene a scenari video del mondo reale. La pagina del progetto è https://rose2025-inpaint.github.io/.
English
Video object removal has achieved advanced performance due to the recent
success of video generative models. However, when addressing the side effects
of objects, e.g., their shadows and reflections, existing works struggle to
eliminate these effects for the scarcity of paired video data as supervision.
This paper presents ROSE, termed Remove Objects with Side Effects, a framework
that systematically studies the object's effects on environment, which can be
categorized into five common cases: shadows, reflections, light, translucency
and mirror. Given the challenges of curating paired videos exhibiting the
aforementioned effects, we leverage a 3D rendering engine for synthetic data
generation. We carefully construct a fully-automatic pipeline for data
preparation, which simulates a large-scale paired dataset with diverse scenes,
objects, shooting angles, and camera trajectories. ROSE is implemented as an
video inpainting model built on diffusion transformer. To localize all
object-correlated areas, the entire video is fed into the model for
reference-based erasing. Moreover, additional supervision is introduced to
explicitly predict the areas affected by side effects, which can be revealed
through the differential mask between the paired videos. To fully investigate
the model performance on various side effect removal, we presents a new
benchmark, dubbed ROSE-Bench, incorporating both common scenarios and the five
special side effects for comprehensive evaluation. Experimental results
demonstrate that ROSE achieves superior performance compared to existing video
object erasing models and generalizes well to real-world video scenarios. The
project page is https://rose2025-inpaint.github.io/.