Direkte 3D-bewusste Objekteinfügung mittels zerlegter visueller Proxys

Zusammenfassung

Die Objektinsertion zielt darauf ab, ein Referenzobjekt nahtlos in einen bestimmten Bereich eines Hintergrundbildes zu integrieren. Aktuelle diffusionsbasierte Methoden erzielen eine hohe visuelle Qualität, formulieren die Insertion jedoch als einfache 2D-Inpainting-Aufgabe, wodurch sie keine explizite Kontrolle über die 3D-Pose des Objekts bieten und ihre praktische Anwendbarkeit einschränken. Wir schlagen DIRECT (Decomposed Injection for Reference Composition and Target-integration) vor, ein neuartiges Framework, das interaktive Pose-Manipulation mit hochwertiger 2D-Bildsynthese integriert, um eine posengesteuerte Objektinsertion zu ermöglichen. Unsere Methode zerlegt die Insertionsbedingungen in drei komplementäre Komponenten: die Erscheinungsführung, die visuelle Details aus dem Referenzobjekt erfasst; die Geometrieführung, die aus dem benutzerangepassten 3D-Proxy abgeleitet wird; und die Kontextführung aus dem Zielhintergrund. Durch die Injektion über separate Pfade vermeidet DIRECT eine Merkmalsverflechtung und bewahrt gleichzeitig die Referenzerscheinung, folgt der vom Benutzer vorgegebenen Pose und passt das Objekt an die Zielszene an. Wir führen außerdem eine automatisierte Datenkonstruktionspipeline ein, um die Vielfalt und Qualität der Trainingsdaten zu verbessern. Experimente zeigen, dass DIRECT frühere Methoden sowohl in der geometrischen Kontrollierbarkeit als auch in der visuellen Qualität übertrifft.

English

Object insertion aims to seamlessly composite a reference object into a specified region of a background image. Recent diffusion-based methods achieve high visual quality but formulate insertion as a simple 2D inpainting task, providing no explicit control over the object's 3D pose and limiting their practical applicability. We propose DIRECT (Decomposed Injection for Reference Composition and Target-integration), a novel framework that integrates interactive pose manipulation with high-fidelity 2D image synthesis to enable pose-controllable object insertion. Our method decomposes the insertion conditions into three complementary components: appearance guidance capturing visual details from the reference object, geometry guidance derived from the user-adjusted 3D proxy, and context guidance from the target background. By injecting them through separate pathways, DIRECT avoids feature entanglement and simultaneously preserves reference appearance, follows the user-specified pose, and adapts the object to the target scene. We also introduce an automated data construction pipeline to improve the diversity and quality of training data. Experiments show that DIRECT outperforms previous methods in both geometric controllability and visual quality.