MIDI: Multi-Instanz Diffusion für die Generierung von 3D-Szenen aus einem einzigen Bild

papers.abstract

Dieses Paper stellt MIDI vor, ein neuartiges Paradigma für die kompositorische 3D-Szenengenerierung aus einem einzigen Bild. Im Gegensatz zu bestehenden Methoden, die auf Rekonstruktions- oder Abruftechniken beruhen oder auf kürzlich entwickelte Ansätze zurückgreifen, die eine mehrstufige Objekt-für-Objekt-Generierung verwenden, erweitert MIDI vortrainierte Bild-zu-3D-Objekt-Generierungsmodelle auf Multi-Instanz-Diffusionsmodelle, die die simultane Generierung mehrerer 3D-Instanzen mit präzisen räumlichen Beziehungen und hoher Generalisierbarkeit ermöglichen. Im Kern integriert MIDI einen neuartigen Multi-Instanz-Aufmerksamkeitsmechanismus, der Interaktionen zwischen Objekten und räumliche Kohärenz effektiv direkt im Generierungsprozess erfasst, ohne komplexe mehrstufige Prozesse zu benötigen. Die Methode nutzt partielle Objektbilder und den globalen Szenenkontext als Eingaben und modelliert direkt die Objektvervollständigung während der 3D-Generierung. Während des Trainings überwachen wir effektiv die Interaktionen zwischen 3D-Instanzen unter Verwendung einer begrenzten Menge von Szenendaten auf Ebene der Szene und integrieren Einzelobjektdaten zur Regularisierung, um die vortrainierte Generalisierungsfähigkeit aufrechtzuerhalten. MIDI zeigt Spitzenleistungen in der Bild-zu-Szene-Generierung, validiert durch Evaluationen an synthetischen Daten, realen Szenendaten und stilisierten Szenenbildern, die von Text-zu-Bild-Diffusionsmodellen generiert wurden.

English

This paper introduces MIDI, a novel paradigm for compositional 3D scene generation from a single image. Unlike existing methods that rely on reconstruction or retrieval techniques or recent approaches that employ multi-stage object-by-object generation, MIDI extends pre-trained image-to-3D object generation models to multi-instance diffusion models, enabling the simultaneous generation of multiple 3D instances with accurate spatial relationships and high generalizability. At its core, MIDI incorporates a novel multi-instance attention mechanism, that effectively captures inter-object interactions and spatial coherence directly within the generation process, without the need for complex multi-step processes. The method utilizes partial object images and global scene context as inputs, directly modeling object completion during 3D generation. During training, we effectively supervise the interactions between 3D instances using a limited amount of scene-level data, while incorporating single-object data for regularization, thereby maintaining the pre-trained generalization ability. MIDI demonstrates state-of-the-art performance in image-to-scene generation, validated through evaluations on synthetic data, real-world scene data, and stylized scene images generated by text-to-image diffusion models.

MIDI: Multi-Instanz Diffusion für die Generierung von 3D-Szenen aus einem einzigen Bild

MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation

papers.abstract

Support