ROSE: Eliminación de Objetos con Efectos Secundarios en Videos
ROSE: Remove Objects with Side Effects in Videos
August 26, 2025
Autores: Chenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Hantang Liu, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao
cs.AI
Resumen
La eliminación de objetos en video ha alcanzado un rendimiento avanzado gracias al reciente éxito de los modelos generativos de video. Sin embargo, al abordar los efectos secundarios de los objetos, como sus sombras y reflejos, los trabajos existentes tienen dificultades para eliminar estos efectos debido a la escasez de datos de video emparejados como supervisión. Este artículo presenta ROSE, denominado Remove Objects with Side Effects, un marco que estudia sistemáticamente los efectos del objeto en el entorno, los cuales pueden categorizarse en cinco casos comunes: sombras, reflejos, luz, translucidez y espejo. Dados los desafíos de curar videos emparejados que exhiban los efectos mencionados, aprovechamos un motor de renderizado 3D para la generación de datos sintéticos. Construimos cuidadosamente una canalización completamente automática para la preparación de datos, que simula un conjunto de datos emparejados a gran escala con diversas escenas, objetos, ángulos de toma y trayectorias de cámara. ROSE se implementa como un modelo de inpaint de video basado en un transformador de difusión. Para localizar todas las áreas correlacionadas con el objeto, se introduce todo el video en el modelo para su eliminación basada en referencia. Además, se introduce supervisión adicional para predecir explícitamente las áreas afectadas por los efectos secundarios, las cuales pueden revelarse a través de la máscara diferencial entre los videos emparejados. Para investigar completamente el rendimiento del modelo en la eliminación de varios efectos secundarios, presentamos un nuevo punto de referencia, denominado ROSE-Bench, que incorpora tanto escenarios comunes como los cinco efectos secundarios especiales para una evaluación integral. Los resultados experimentales demuestran que ROSE logra un rendimiento superior en comparación con los modelos existentes de eliminación de objetos en video y se generaliza bien a escenarios de video del mundo real. La página del proyecto es https://rose2025-inpaint.github.io/.
English
Video object removal has achieved advanced performance due to the recent
success of video generative models. However, when addressing the side effects
of objects, e.g., their shadows and reflections, existing works struggle to
eliminate these effects for the scarcity of paired video data as supervision.
This paper presents ROSE, termed Remove Objects with Side Effects, a framework
that systematically studies the object's effects on environment, which can be
categorized into five common cases: shadows, reflections, light, translucency
and mirror. Given the challenges of curating paired videos exhibiting the
aforementioned effects, we leverage a 3D rendering engine for synthetic data
generation. We carefully construct a fully-automatic pipeline for data
preparation, which simulates a large-scale paired dataset with diverse scenes,
objects, shooting angles, and camera trajectories. ROSE is implemented as an
video inpainting model built on diffusion transformer. To localize all
object-correlated areas, the entire video is fed into the model for
reference-based erasing. Moreover, additional supervision is introduced to
explicitly predict the areas affected by side effects, which can be revealed
through the differential mask between the paired videos. To fully investigate
the model performance on various side effect removal, we presents a new
benchmark, dubbed ROSE-Bench, incorporating both common scenarios and the five
special side effects for comprehensive evaluation. Experimental results
demonstrate that ROSE achieves superior performance compared to existing video
object erasing models and generalizes well to real-world video scenarios. The
project page is https://rose2025-inpaint.github.io/.