ROSE: Удаление объектов с побочными эффектами в видео
ROSE: Remove Objects with Side Effects in Videos
August 26, 2025
Авторы: Chenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Hantang Liu, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao
cs.AI
Аннотация
Удаление объектов из видео достигло высокого уровня производительности благодаря недавним успехам генеративных моделей для видео. Однако при устранении побочных эффектов объектов, таких как их тени и отражения, существующие методы сталкиваются с трудностями из-за недостатка парных видеоданных для обучения. В данной статье представлен ROSE (Remove Objects with Side Effects) — фреймворк, который систематически изучает влияние объектов на окружающую среду, которое можно разделить на пять основных случаев: тени, отражения, освещение, прозрачность и зеркала. Учитывая сложности с созданием парных видео, демонстрирующих указанные эффекты, мы используем 3D-движок для генерации синтетических данных. Мы тщательно разработали полностью автоматизированный конвейер подготовки данных, который моделирует масштабный набор парных данных с разнообразными сценами, объектами, углами съемки и траекториями камеры. ROSE реализован как модель восстановления видео, основанная на диффузионных трансформерах. Для локализации всех областей, связанных с объектом, весь видеофайл подается в модель для удаления на основе эталонных данных. Кроме того, вводится дополнительное обучение для явного прогнозирования областей, затронутых побочными эффектами, которые можно выявить через дифференциальную маску между парными видео. Для всестороннего исследования производительности модели в устранении различных побочных эффектов мы представляем новый бенчмарк под названием ROSE-Bench, включающий как стандартные сценарии, так и пять специальных побочных эффектов для комплексной оценки. Экспериментальные результаты показывают, что ROSE демонстрирует превосходную производительность по сравнению с существующими моделями удаления объектов из видео и хорошо обобщается на реальные видеосценарии. Страница проекта доступна по адресу: https://rose2025-inpaint.github.io/.
English
Video object removal has achieved advanced performance due to the recent
success of video generative models. However, when addressing the side effects
of objects, e.g., their shadows and reflections, existing works struggle to
eliminate these effects for the scarcity of paired video data as supervision.
This paper presents ROSE, termed Remove Objects with Side Effects, a framework
that systematically studies the object's effects on environment, which can be
categorized into five common cases: shadows, reflections, light, translucency
and mirror. Given the challenges of curating paired videos exhibiting the
aforementioned effects, we leverage a 3D rendering engine for synthetic data
generation. We carefully construct a fully-automatic pipeline for data
preparation, which simulates a large-scale paired dataset with diverse scenes,
objects, shooting angles, and camera trajectories. ROSE is implemented as an
video inpainting model built on diffusion transformer. To localize all
object-correlated areas, the entire video is fed into the model for
reference-based erasing. Moreover, additional supervision is introduced to
explicitly predict the areas affected by side effects, which can be revealed
through the differential mask between the paired videos. To fully investigate
the model performance on various side effect removal, we presents a new
benchmark, dubbed ROSE-Bench, incorporating both common scenarios and the five
special side effects for comprehensive evaluation. Experimental results
demonstrate that ROSE achieves superior performance compared to existing video
object erasing models and generalizes well to real-world video scenarios. The
project page is https://rose2025-inpaint.github.io/.