Insertion directe d'objets tenant compte de la 3D via des proxys visuels décomposés

Résumé

L'insertion d'objets vise à composer de manière transparente un objet de référence dans une région spécifiée d'une image d'arrière-plan. Les méthodes récentes basées sur la diffusion atteignent une haute qualité visuelle mais formulent l'insertion comme une simple tâche d'inpainting 2D, sans offrir de contrôle explicite sur la pose 3D de l'objet, ce qui limite leur applicabilité pratique. Nous proposons DIRECT (Decomposed Injection for Reference Composition and Target-integration), un nouveau cadre qui intègre la manipulation interactive de la pose avec une synthèse d'image 2D haute-fidélité pour permettre une insertion d'objets contrôlable par la pose. Notre méthode décompose les conditions d'insertion en trois composantes complémentaires : le guidage d'apparence capturant les détails visuels de l'objet de référence, le guidage géométrique dérivé du proxy 3D ajusté par l'utilisateur, et le guidage contextuel provenant de l'arrière-plan cible. En les injectant via des voies séparées, DIRECT évite l'enchevêtrement des caractéristiques et préserve simultanément l'apparence de référence, suit la pose spécifiée par l'utilisateur et adapte l'objet à la scène cible. Nous introduisons également un pipeline automatisé de construction de données pour améliorer la diversité et la qualité des données d'entraînement. Les expériences montrent que DIRECT surpasse les méthodes précédentes à la fois en termes de contrôlabilité géométrique et de qualité visuelle.

English

Object insertion aims to seamlessly composite a reference object into a specified region of a background image. Recent diffusion-based methods achieve high visual quality but formulate insertion as a simple 2D inpainting task, providing no explicit control over the object's 3D pose and limiting their practical applicability. We propose DIRECT (Decomposed Injection for Reference Composition and Target-integration), a novel framework that integrates interactive pose manipulation with high-fidelity 2D image synthesis to enable pose-controllable object insertion. Our method decomposes the insertion conditions into three complementary components: appearance guidance capturing visual details from the reference object, geometry guidance derived from the user-adjusted 3D proxy, and context guidance from the target background. By injecting them through separate pathways, DIRECT avoids feature entanglement and simultaneously preserves reference appearance, follows the user-specified pose, and adapts the object to the target scene. We also introduce an automated data construction pipeline to improve the diversity and quality of training data. Experiments show that DIRECT outperforms previous methods in both geometric controllability and visual quality.