Inserción Directa de Objetos con Conciencia 3D mediante Proxies Visuales Descompuestos

Resumen

La inserción de objetos tiene como objetivo componer de manera fluida un objeto de referencia en una región específica de una imagen de fondo. Los métodos recientes basados en difusión logran una alta calidad visual, pero formulan la inserción como una simple tarea de inpaint 2D, sin proporcionar control explícito sobre la pose 3D del objeto y limitando su aplicabilidad práctica. Proponemos DIRECT (Inyección Descompuesta para Composición de Referencia e Integración en el Destino), un marco novedoso que integra la manipulación interactiva de la pose con la síntesis de imágenes 2D de alta fidelidad para permitir la inserción de objetos controlable por pose. Nuestro método descompone las condiciones de inserción en tres componentes complementarios: guía de apariencia que captura detalles visuales del objeto de referencia, guía geométrica derivada del proxy 3D ajustado por el usuario y guía de contexto del fondo de destino. Al inyectarlos a través de vías separadas, DIRECT evita el enredo de características y, simultáneamente, preserva la apariencia de referencia, sigue la pose especificada por el usuario y adapta el objeto a la escena de destino. También introducimos un pipeline automatizado de construcción de datos para mejorar la diversidad y calidad de los datos de entrenamiento. Los experimentos muestran que DIRECT supera a los métodos anteriores tanto en controlabilidad geométrica como en calidad visual.

English

Object insertion aims to seamlessly composite a reference object into a specified region of a background image. Recent diffusion-based methods achieve high visual quality but formulate insertion as a simple 2D inpainting task, providing no explicit control over the object's 3D pose and limiting their practical applicability. We propose DIRECT (Decomposed Injection for Reference Composition and Target-integration), a novel framework that integrates interactive pose manipulation with high-fidelity 2D image synthesis to enable pose-controllable object insertion. Our method decomposes the insertion conditions into three complementary components: appearance guidance capturing visual details from the reference object, geometry guidance derived from the user-adjusted 3D proxy, and context guidance from the target background. By injecting them through separate pathways, DIRECT avoids feature entanglement and simultaneously preserves reference appearance, follows the user-specified pose, and adapts the object to the target scene. We also introduce an automated data construction pipeline to improve the diversity and quality of training data. Experiments show that DIRECT outperforms previous methods in both geometric controllability and visual quality.