ROSE: 映像内の副作用を伴う物体除去
ROSE: Remove Objects with Side Effects in Videos
August 26, 2025
著者: Chenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Hantang Liu, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao
cs.AI
要旨
ビデオオブジェクト除去は、最近のビデオ生成モデルの成功により高度な性能を達成しています。しかし、オブジェクトの副作用(例えば、影や反射)に対処する際、既存の研究は、監視データとしてのペアビデオの不足により、これらの効果を完全に除去するのに苦労しています。本論文では、ROSE(Remove Objects with Side Effects)と呼ばれるフレームワークを提案します。このフレームワークは、オブジェクトが環境に及ぼす影響を体系的に研究し、それらを影、反射、光、半透明、鏡の5つの一般的なケースに分類します。前述の効果を示すペアビデオをキュレーションする難しさを考慮し、3Dレンダリングエンジンを活用して合成データを生成します。データ準備のための完全自動化パイプラインを慎重に構築し、多様なシーン、オブジェクト、撮影角度、カメラ軌跡を含む大規模なペアデータセットをシミュレートします。ROSEは、拡散トランスフォーマーに基づくビデオインペインティングモデルとして実装されます。すべてのオブジェクト関連領域をローカライズするために、ビデオ全体をモデルに入力し、参照ベースの消去を行います。さらに、ペアビデオ間の差分マスクを通じて明らかになる副作用の影響を受ける領域を明示的に予測するための追加の監視を導入します。さまざまな副作用除去におけるモデルの性能を完全に調査するために、一般的なシナリオと5つの特殊な副作用を含む新しいベンチマーク、ROSE-Benchを提示します。実験結果は、ROSEが既存のビデオオブジェクト消去モデルと比較して優れた性能を達成し、実世界のビデオシナリオにもうまく一般化することを示しています。プロジェクトページはhttps://rose2025-inpaint.github.io/です。
English
Video object removal has achieved advanced performance due to the recent
success of video generative models. However, when addressing the side effects
of objects, e.g., their shadows and reflections, existing works struggle to
eliminate these effects for the scarcity of paired video data as supervision.
This paper presents ROSE, termed Remove Objects with Side Effects, a framework
that systematically studies the object's effects on environment, which can be
categorized into five common cases: shadows, reflections, light, translucency
and mirror. Given the challenges of curating paired videos exhibiting the
aforementioned effects, we leverage a 3D rendering engine for synthetic data
generation. We carefully construct a fully-automatic pipeline for data
preparation, which simulates a large-scale paired dataset with diverse scenes,
objects, shooting angles, and camera trajectories. ROSE is implemented as an
video inpainting model built on diffusion transformer. To localize all
object-correlated areas, the entire video is fed into the model for
reference-based erasing. Moreover, additional supervision is introduced to
explicitly predict the areas affected by side effects, which can be revealed
through the differential mask between the paired videos. To fully investigate
the model performance on various side effect removal, we presents a new
benchmark, dubbed ROSE-Bench, incorporating both common scenarios and the five
special side effects for comprehensive evaluation. Experimental results
demonstrate that ROSE achieves superior performance compared to existing video
object erasing models and generalizes well to real-world video scenarios. The
project page is https://rose2025-inpaint.github.io/.