分解視覚プロキシによる直接的な3D認識オブジェクト挿入
Direct 3D-Aware Object Insertion via Decomposed Visual Proxies
June 4, 2026
著者: Jingbo Gong, Yikai Wang, Yushi Lan, Yuhao Wan, Ziheng Ouyang, Rui Zhao, Ming-Ming Cheng, Qibin Hou, Chen Change Loy
cs.AI
要旨
オブジェクト挿入は、参照オブジェクトを背景画像の指定領域にシームレスに合成することを目的とする。近年の拡散モデルを用いた手法は高い視覚品質を実現しているが、挿入を単純な2Dインペインティングタスクとして定式化しており、オブジェクトの3D姿勢を明示的に制御できず、実用的な適用可能性が制限されている。我々は、インタラクティブな姿勢操作と高忠実度2D画像合成を統合し、姿勢制御可能なオブジェクト挿入を実現する新しいフレームワークDIRECT(Decomposed Injection for Reference Composition and Target-integration)を提案する。本手法は、挿入条件を3つの補完的なコンポーネント、すなわち参照オブジェクトから視覚的詳細を捉える外観ガイダンス、ユーザーが調整した3Dプロキシから導出される幾何ガイダンス、対象背景からのコンテキストガイダンスに分解する。これらを別々の経路で注入することにより、DIRECTは特徴の絡み合いを回避し、参照の外観を維持しつつユーザー指定の姿勢に従い、オブジェクトを対象シーンに適応させる。また、訓練データの多様性と品質を向上させるための自動データ構築パイプラインを導入する。実験により、DIRECTは幾何学的制御性と視覚品質の両方において従来手法を上回ることが示された。
English
Object insertion aims to seamlessly composite a reference object into a specified region of a background image. Recent diffusion-based methods achieve high visual quality but formulate insertion as a simple 2D inpainting task, providing no explicit control over the object's 3D pose and limiting their practical applicability. We propose DIRECT (Decomposed Injection for Reference Composition and Target-integration), a novel framework that integrates interactive pose manipulation with high-fidelity 2D image synthesis to enable pose-controllable object insertion. Our method decomposes the insertion conditions into three complementary components: appearance guidance capturing visual details from the reference object, geometry guidance derived from the user-adjusted 3D proxy, and context guidance from the target background. By injecting them through separate pathways, DIRECT avoids feature entanglement and simultaneously preserves reference appearance, follows the user-specified pose, and adapts the object to the target scene. We also introduce an automated data construction pipeline to improve the diversity and quality of training data. Experiments show that DIRECT outperforms previous methods in both geometric controllability and visual quality.