ROSE: Verwijder Objecten met Neveneffecten in Video's
ROSE: Remove Objects with Side Effects in Videos
August 26, 2025
Auteurs: Chenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Hantang Liu, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao
cs.AI
Samenvatting
Het verwijderen van objecten uit video's heeft geavanceerde prestaties bereikt dankzij het recente succes van generatieve videomodellen. Wanneer echter de neveneffecten van objecten, zoals hun schaduwen en reflecties, worden aangepakt, worstelen bestaande methoden om deze effecten te elimineren vanwege het gebrek aan gepaarde videogegevens als supervisie. Dit artikel presenteert ROSE, genaamd Remove Objects with Side Effects, een raamwerk dat systematisch de effecten van objecten op de omgeving bestudeert, die kunnen worden onderverdeeld in vijf veelvoorkomende gevallen: schaduwen, reflecties, licht, transparantie en spiegels. Gezien de uitdagingen van het samenstellen van gepaarde video's die de bovengenoemde effecten vertonen, maken we gebruik van een 3D-renderingengine voor synthetische datageneratie. We hebben zorgvuldig een volledig automatische pijplijn voor datavoorbereiding geconstrueerd, die een grootschalige gepaarde dataset simuleert met diverse scènes, objecten, camerahoeken en cameratrajecten. ROSE is geïmplementeerd als een video-inpaintingmodel gebouwd op een diffusion transformer. Om alle objectgerelateerde gebieden te lokaliseren, wordt de gehele video in het model gevoerd voor referentiegebaseerd wissen. Bovendien wordt aanvullende supervisie geïntroduceerd om expliciet de gebieden te voorspellen die worden beïnvloed door neveneffecten, die kunnen worden onthuld door het differentiële masker tussen de gepaarde video's. Om de modelprestaties op verschillende neveneffectverwijderingen volledig te onderzoeken, presenteren we een nieuwe benchmark, genaamd ROSE-Bench, die zowel veelvoorkomende scenario's als de vijf speciale neveneffecten omvat voor een uitgebreide evaluatie. Experimentele resultaten tonen aan dat ROSE superieure prestaties bereikt in vergelijking met bestaande video-objectverwijdermodellen en goed generaliseert naar real-world videoscenario's. De projectpagina is https://rose2025-inpaint.github.io/.
English
Video object removal has achieved advanced performance due to the recent
success of video generative models. However, when addressing the side effects
of objects, e.g., their shadows and reflections, existing works struggle to
eliminate these effects for the scarcity of paired video data as supervision.
This paper presents ROSE, termed Remove Objects with Side Effects, a framework
that systematically studies the object's effects on environment, which can be
categorized into five common cases: shadows, reflections, light, translucency
and mirror. Given the challenges of curating paired videos exhibiting the
aforementioned effects, we leverage a 3D rendering engine for synthetic data
generation. We carefully construct a fully-automatic pipeline for data
preparation, which simulates a large-scale paired dataset with diverse scenes,
objects, shooting angles, and camera trajectories. ROSE is implemented as an
video inpainting model built on diffusion transformer. To localize all
object-correlated areas, the entire video is fed into the model for
reference-based erasing. Moreover, additional supervision is introduced to
explicitly predict the areas affected by side effects, which can be revealed
through the differential mask between the paired videos. To fully investigate
the model performance on various side effect removal, we presents a new
benchmark, dubbed ROSE-Bench, incorporating both common scenarios and the five
special side effects for comprehensive evaluation. Experimental results
demonstrate that ROSE achieves superior performance compared to existing video
object erasing models and generalizes well to real-world video scenarios. The
project page is https://rose2025-inpaint.github.io/.