InsertAnywhere: 4Dシーン幾何学と拡散モデルを統合し、リアルな動画オブジェクト挿入を実現
InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion
December 19, 2025
著者: Hoiyeong Jin, Hyojin Jang, Jeongho Kim, Junha Hyung, Kinam Kim, Dongjin Kim, Huijin Choi, Hyeonji Kim, Jaegul Choo
cs.AI
要旨
拡散モデルに基づく動画生成の最近の進歩は制御可能な動画編集に新たな可能性をもたらしたが、4次元シーン理解の限界やオクルージョン・照明効果の不適切な処理により、現実的な動画オブジェクト挿入(VOI)は依然として課題である。本論文では、幾何学的に一貫したオブジェクト配置と外観の忠実な動画合成を実現する新しいVOIフレームワーク「InsertAnywhere」を提案する。本手法はまず、シーン幾何学を再構築し、ユーザー指定のオブジェクト配置を時間的一貫性とオクルージョン整合性を保ちながらフレーム間で伝播する4次元対応マスク生成モジュールから始まる。この空間的基盤に基づき、拡散ベースの動画生成モデルを拡張して、挿入オブジェクトと照明・陰影などの周辺局所変動を統合的に合成する。教師あり学習を可能にするため、ROSEオブジェクト除去データセットを変換して、オブジェクト除去済み動画・オブジェクト存在動画・VLM生成参照画像の三重項から構成される照明対応合成データセットROSE++を導入した。大規模な実験を通し、本フレームワークが多様な実世界シナリオにおいて幾何学的に妥当で視覚的に一貫性のあるオブジェクト挿入を生成し、既存の研究および商用モデルを大幅に上回ることを実証する。
English
Recent advances in diffusion-based video generation have opened new possibilities for controllable video editing, yet realistic video object insertion (VOI) remains challenging due to limited 4D scene understanding and inadequate handling of occlusion and lighting effects. We present InsertAnywhere, a new VOI framework that achieves geometrically consistent object placement and appearance-faithful video synthesis. Our method begins with a 4D aware mask generation module that reconstructs the scene geometry and propagates user specified object placement across frames while maintaining temporal coherence and occlusion consistency. Building upon this spatial foundation, we extend a diffusion based video generation model to jointly synthesize the inserted object and its surrounding local variations such as illumination and shading. To enable supervised training, we introduce ROSE++, an illumination aware synthetic dataset constructed by transforming the ROSE object removal dataset into triplets of object removed video, object present video, and a VLM generated reference image. Through extensive experiments, we demonstrate that our framework produces geometrically plausible and visually coherent object insertions across diverse real world scenarios, significantly outperforming existing research and commercial models.