ROSE: Remover Objetos com Efeitos Colaterais em Vídeos
ROSE: Remove Objects with Side Effects in Videos
August 26, 2025
Autores: Chenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Hantang Liu, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao
cs.AI
Resumo
A remoção de objetos em vídeos alcançou um desempenho avançado devido ao recente sucesso dos modelos generativos de vídeo. No entanto, ao abordar os efeitos colaterais dos objetos, como suas sombras e reflexos, os trabalhos existentes lutam para eliminar esses efeitos devido à escassez de dados de vídeo pareados como supervisão. Este artigo apresenta o ROSE, denominado Remove Objects with Side Effects, um framework que estuda sistematicamente os efeitos dos objetos no ambiente, que podem ser categorizados em cinco casos comuns: sombras, reflexos, luz, translucidez e espelho. Diante dos desafios de curar vídeos pareados que exibem os efeitos mencionados, utilizamos um motor de renderização 3D para a geração de dados sintéticos. Construímos cuidadosamente um pipeline totalmente automático para preparação de dados, que simula um conjunto de dados pareados em grande escala com diversas cenas, objetos, ângulos de filmagem e trajetórias de câmera. O ROSE é implementado como um modelo de inpainting de vídeo baseado em transformadores de difusão. Para localizar todas as áreas correlacionadas ao objeto, o vídeo inteiro é alimentado no modelo para apagamento baseado em referência. Além disso, uma supervisão adicional é introduzida para prever explicitamente as áreas afetadas pelos efeitos colaterais, que podem ser reveladas através da máscara diferencial entre os vídeos pareados. Para investigar completamente o desempenho do modelo na remoção de vários efeitos colaterais, apresentamos um novo benchmark, denominado ROSE-Bench, incorporando tanto cenários comuns quanto os cinco efeitos colaterais especiais para avaliação abrangente. Os resultados experimentais demonstram que o ROSE alcança um desempenho superior em comparação com os modelos existentes de apagamento de objetos em vídeo e generaliza bem para cenários de vídeo do mundo real. A página do projeto está disponível em https://rose2025-inpaint.github.io/.
English
Video object removal has achieved advanced performance due to the recent
success of video generative models. However, when addressing the side effects
of objects, e.g., their shadows and reflections, existing works struggle to
eliminate these effects for the scarcity of paired video data as supervision.
This paper presents ROSE, termed Remove Objects with Side Effects, a framework
that systematically studies the object's effects on environment, which can be
categorized into five common cases: shadows, reflections, light, translucency
and mirror. Given the challenges of curating paired videos exhibiting the
aforementioned effects, we leverage a 3D rendering engine for synthetic data
generation. We carefully construct a fully-automatic pipeline for data
preparation, which simulates a large-scale paired dataset with diverse scenes,
objects, shooting angles, and camera trajectories. ROSE is implemented as an
video inpainting model built on diffusion transformer. To localize all
object-correlated areas, the entire video is fed into the model for
reference-based erasing. Moreover, additional supervision is introduced to
explicitly predict the areas affected by side effects, which can be revealed
through the differential mask between the paired videos. To fully investigate
the model performance on various side effect removal, we presents a new
benchmark, dubbed ROSE-Bench, incorporating both common scenarios and the five
special side effects for comprehensive evaluation. Experimental results
demonstrate that ROSE achieves superior performance compared to existing video
object erasing models and generalizes well to real-world video scenarios. The
project page is https://rose2025-inpaint.github.io/.