InsertAnywhere: 사실적인 비디오 객체 삽입을 위한 4D 장면 기하구조와 디퓨전 모델의 연결
InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion
December 19, 2025
저자: Hoiyeong Jin, Hyojin Jang, Jeongho Kim, Junha Hyung, Kinam Kim, Dongjin Kim, Huijin Choi, Hyeonji Kim, Jaegul Choo
cs.AI
초록
확산 기반 비디오 생성의 최근 발전은 제어 가능한 비디오 편집에 새로운 가능성을 열었지만, 제한된 4D 장면 이해와 오클루전 및 조명 효과 처리의 부족으로 인해 사실적인 비디오 객체 삽입(VOI)은 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 기하학적으로 일관된 객체 배치와 외관이 정확한 비디오 합성을 달성하는 새로운 VOI 프레임워크인 InsertAnywhere를 제시합니다. 우리의 방법은 장면 기하구조를 재구성하고 시간적 일관성과 오클루전 일관성을 유지하면서 사용자가 지정한 객체 배치를 프레임 간에 전파하는 4D 인식 마스크 생성 모듈로 시작합니다. 이러한 공간적 기반 위에, 우리는 확산 기반 비디오 생성 모델을 확장하여 삽입된 객체와 조명 및 쉐이딩과 같은 주변 국부 변화를 함께 합성합니다. 지도 학습을 가능하게 하기 위해, ROSE 객체 제거 데이터셋을 객체가 제거된 비디오, 객체가 존재하는 비디오, VLM 생성 참조 이미지의 삼중항으로 변환하여 구성된 조명 인식 합성 데이터셋인 ROSE++를 도입합니다. 광범위한 실험을 통해 우리의 프레임워크가 다양한 실제 시나리오에서 기하학적으로 타당하고 시각적으로 일관된 객체 삽입 결과를 생성하며, 기존 연구 및 상용 모델을 크게 능가함을 입증합니다.
English
Recent advances in diffusion-based video generation have opened new possibilities for controllable video editing, yet realistic video object insertion (VOI) remains challenging due to limited 4D scene understanding and inadequate handling of occlusion and lighting effects. We present InsertAnywhere, a new VOI framework that achieves geometrically consistent object placement and appearance-faithful video synthesis. Our method begins with a 4D aware mask generation module that reconstructs the scene geometry and propagates user specified object placement across frames while maintaining temporal coherence and occlusion consistency. Building upon this spatial foundation, we extend a diffusion based video generation model to jointly synthesize the inserted object and its surrounding local variations such as illumination and shading. To enable supervised training, we introduce ROSE++, an illumination aware synthetic dataset constructed by transforming the ROSE object removal dataset into triplets of object removed video, object present video, and a VLM generated reference image. Through extensive experiments, we demonstrate that our framework produces geometrically plausible and visually coherent object insertions across diverse real world scenarios, significantly outperforming existing research and commercial models.