ROSE: Entfernen von Objekten mit Nebeneffekten in Videos
ROSE: Remove Objects with Side Effects in Videos
August 26, 2025
papers.authors: Chenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Hantang Liu, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao
cs.AI
papers.abstract
Die Entfernung von Objekten in Videos hat aufgrund der jüngsten Erfolge von Video-Generierungsmodellen fortgeschrittene Leistungen erzielt. Allerdings kämpfen bestehende Ansätze damit, die Nebeneffekte von Objekten, wie z.B. deren Schatten und Reflexionen, zu beseitigen, da es an gepaarten Videodaten als Supervision mangelt. Dieses Papier stellt ROSE vor, kurz für „Remove Objects with Side Effects“, ein Framework, das systematisch die Auswirkungen von Objekten auf die Umgebung untersucht, die in fünf häufige Fälle kategorisiert werden können: Schatten, Reflexionen, Licht, Transluzenz und Spiegel. Angesichts der Herausforderungen bei der Erstellung gepaarter Videos, die die genannten Effekte zeigen, nutzen wir eine 3D-Rendering-Engine zur Erzeugung synthetischer Daten. Wir haben sorgfältig eine vollautomatische Pipeline für die Datenvorbereitung entwickelt, die einen groß angelegten gepaarten Datensatz mit vielfältigen Szenen, Objekten, Aufnahmewinkeln und Kameratrajektorien simuliert. ROSE wird als Video-Inpainting-Modell implementiert, das auf einem Diffusion Transformer basiert. Um alle objektbezogenen Bereiche zu lokalisieren, wird das gesamte Video in das Modell eingespeist, um eine referenzbasierte Löschung durchzuführen. Darüber hinaus wird zusätzliche Supervision eingeführt, um explizit die von Nebeneffekten betroffenen Bereiche vorherzusagen, die durch die Differenzmaske zwischen den gepaarten Videos aufgedeckt werden können. Um die Modellleistung bei der Entfernung verschiedener Nebeneffekte vollständig zu untersuchen, stellen wir einen neuen Benchmark vor, genannt ROSE-Bench, der sowohl gängige Szenarien als auch die fünf speziellen Nebeneffekte für eine umfassende Bewertung beinhaltet. Experimentelle Ergebnisse zeigen, dass ROSE eine überlegene Leistung im Vergleich zu bestehenden Video-Objektlöschmodellen erzielt und sich gut auf reale Video-Szenarien verallgemeinern lässt. Die Projektseite ist https://rose2025-inpaint.github.io/.
English
Video object removal has achieved advanced performance due to the recent
success of video generative models. However, when addressing the side effects
of objects, e.g., their shadows and reflections, existing works struggle to
eliminate these effects for the scarcity of paired video data as supervision.
This paper presents ROSE, termed Remove Objects with Side Effects, a framework
that systematically studies the object's effects on environment, which can be
categorized into five common cases: shadows, reflections, light, translucency
and mirror. Given the challenges of curating paired videos exhibiting the
aforementioned effects, we leverage a 3D rendering engine for synthetic data
generation. We carefully construct a fully-automatic pipeline for data
preparation, which simulates a large-scale paired dataset with diverse scenes,
objects, shooting angles, and camera trajectories. ROSE is implemented as an
video inpainting model built on diffusion transformer. To localize all
object-correlated areas, the entire video is fed into the model for
reference-based erasing. Moreover, additional supervision is introduced to
explicitly predict the areas affected by side effects, which can be revealed
through the differential mask between the paired videos. To fully investigate
the model performance on various side effect removal, we presents a new
benchmark, dubbed ROSE-Bench, incorporating both common scenarios and the five
special side effects for comprehensive evaluation. Experimental results
demonstrate that ROSE achieves superior performance compared to existing video
object erasing models and generalizes well to real-world video scenarios. The
project page is https://rose2025-inpaint.github.io/.