분해된 시각적 프록시를 통한 직접적 3D 인식 객체 삽입
Direct 3D-Aware Object Insertion via Decomposed Visual Proxies
June 4, 2026
저자: Jingbo Gong, Yikai Wang, Yushi Lan, Yuhao Wan, Ziheng Ouyang, Rui Zhao, Ming-Ming Cheng, Qibin Hou, Chen Change Loy
cs.AI
초록
객체 삽입은 참조 객체를 배경 이미지의 특정 영역에 매끄럽게 합성하는 것을 목표로 한다. 최근 확산 기반 방법들은 높은 시각적 품질을 달성하지만, 삽입을 단순한 2D 인페인팅 작업으로 정의하여 객체의 3D 포즈에 대한 명시적 제어를 제공하지 않으며 실용적 적용 가능성을 제한한다. 본 논문에서는 상호작용적 포즈 조작과 고충실도 2D 이미지 합성을 통합하여 포즈 제어가 가능한 객체 삽입을 가능하게 하는 새로운 프레임워크인 DIRECT(Decomposed Injection for Reference Composition and Target-integration)를 제안한다. 우리의 방법은 삽입 조건을 세 가지 상호 보완적 구성 요소, 즉 참조 객체의 시각적 세부 사항을 포착하는 외형 가이던스, 사용자가 조정한 3D 프록시로부터 도출된 기하 가이던스, 그리고 대상 배경의 맥락 가이던스로 분해한다. 이들을 별도의 경로를 통해 주입함으로써 DIRECT는 특징 얽힘을 방지하고, 참조 외형을 보존하며, 사용자가 지정한 포즈를 따르고, 객체를 대상 장면에 적응시킨다. 또한 훈련 데이터의 다양성과 품질을 향상시키기 위해 자동화된 데이터 구축 파이프라인을 도입한다. 실험 결과는 DIRECT가 기하학적 제어 가능성과 시각적 품질 모두에서 이전 방법들을 능가함을 보여준다.
English
Object insertion aims to seamlessly composite a reference object into a specified region of a background image. Recent diffusion-based methods achieve high visual quality but formulate insertion as a simple 2D inpainting task, providing no explicit control over the object's 3D pose and limiting their practical applicability. We propose DIRECT (Decomposed Injection for Reference Composition and Target-integration), a novel framework that integrates interactive pose manipulation with high-fidelity 2D image synthesis to enable pose-controllable object insertion. Our method decomposes the insertion conditions into three complementary components: appearance guidance capturing visual details from the reference object, geometry guidance derived from the user-adjusted 3D proxy, and context guidance from the target background. By injecting them through separate pathways, DIRECT avoids feature entanglement and simultaneously preserves reference appearance, follows the user-specified pose, and adapts the object to the target scene. We also introduce an automated data construction pipeline to improve the diversity and quality of training data. Experiments show that DIRECT outperforms previous methods in both geometric controllability and visual quality.