Directe 3D-bewuste Objectinsertie via Gedecomponeerde Visuele Proxies

Samenvatting

Objectinvoeging heeft als doel om een referentieobject naadloos te componeren in een gespecificeerd gebied van een achtergrondafbeelding. Recente diffusiegebaseerde methoden behalen een hoge visuele kwaliteit, maar formuleren invoeging als een eenvoudige 2D-inpaint-taak, zonder expliciete controle over de 3D-pose van het object, wat hun praktische toepasbaarheid beperkt. Wij stellen DIRECT (Decomposed Injection for Reference Composition and Target-integration) voor, een nieuw raamwerk dat interactieve posemanipulatie integreert met hoogwaardige 2D-beeldsynthese om pose-controleerbare objectinvoeging mogelijk te maken. Onze methode ontleedt de invoegingscondities in drie complementaire componenten: uiterlijkheidsgeleiding die visuele details uit het referentieobject vastlegt, geometriegeleiding afgeleid van de door de gebruiker aangepaste 3D-proxy, en contextgeleiding vanuit de doelachtergrond. Door deze via aparte paden te injecteren, vermijdt DIRECT kenmerkenverstrengeling en behoudt het tegelijkertijd het referentie-uiterlijk, volgt het de door de gebruiker gespecificeerde pose, en past het het object aan de doelscène aan. We introduceren ook een geautomatiseerde dataconstructiepijplijn om de diversiteit en kwaliteit van trainingsdata te verbeteren. Experimenten tonen aan dat DIRECT eerdere methoden overtreft in zowel geometrische controleerbaarheid als visuele kwaliteit.

English

Object insertion aims to seamlessly composite a reference object into a specified region of a background image. Recent diffusion-based methods achieve high visual quality but formulate insertion as a simple 2D inpainting task, providing no explicit control over the object's 3D pose and limiting their practical applicability. We propose DIRECT (Decomposed Injection for Reference Composition and Target-integration), a novel framework that integrates interactive pose manipulation with high-fidelity 2D image synthesis to enable pose-controllable object insertion. Our method decomposes the insertion conditions into three complementary components: appearance guidance capturing visual details from the reference object, geometry guidance derived from the user-adjusted 3D proxy, and context guidance from the target background. By injecting them through separate pathways, DIRECT avoids feature entanglement and simultaneously preserves reference appearance, follows the user-specified pose, and adapts the object to the target scene. We also introduce an automated data construction pipeline to improve the diversity and quality of training data. Experiments show that DIRECT outperforms previous methods in both geometric controllability and visual quality.