MIDI: Multi-Instanz Diffusion für die Generierung von 3D-Szenen aus einem einzigen Bild
MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation
December 4, 2024
Autoren: Zehuan Huang, Yuan-Chen Guo, Xingqiao An, Yunhan Yang, Yangguang Li, Zi-Xin Zou, Ding Liang, Xihui Liu, Yan-Pei Cao, Lu Sheng
cs.AI
Zusammenfassung
Dieses Paper stellt MIDI vor, ein neuartiges Paradigma für die kompositorische 3D-Szenengenerierung aus einem einzigen Bild. Im Gegensatz zu bestehenden Methoden, die auf Rekonstruktions- oder Abruftechniken beruhen oder auf kürzlich entwickelte Ansätze zurückgreifen, die eine mehrstufige Objekt-für-Objekt-Generierung verwenden, erweitert MIDI vortrainierte Bild-zu-3D-Objekt-Generierungsmodelle auf Multi-Instanz-Diffusionsmodelle, die die simultane Generierung mehrerer 3D-Instanzen mit präzisen räumlichen Beziehungen und hoher Generalisierbarkeit ermöglichen. Im Kern integriert MIDI einen neuartigen Multi-Instanz-Aufmerksamkeitsmechanismus, der Interaktionen zwischen Objekten und räumliche Kohärenz effektiv direkt im Generierungsprozess erfasst, ohne komplexe mehrstufige Prozesse zu benötigen. Die Methode nutzt partielle Objektbilder und den globalen Szenenkontext als Eingaben und modelliert direkt die Objektvervollständigung während der 3D-Generierung. Während des Trainings überwachen wir effektiv die Interaktionen zwischen 3D-Instanzen unter Verwendung einer begrenzten Menge von Szenendaten auf Ebene der Szene und integrieren Einzelobjektdaten zur Regularisierung, um die vortrainierte Generalisierungsfähigkeit aufrechtzuerhalten. MIDI zeigt Spitzenleistungen in der Bild-zu-Szene-Generierung, validiert durch Evaluationen an synthetischen Daten, realen Szenendaten und stilisierten Szenenbildern, die von Text-zu-Bild-Diffusionsmodellen generiert wurden.
English
This paper introduces MIDI, a novel paradigm for compositional 3D scene
generation from a single image. Unlike existing methods that rely on
reconstruction or retrieval techniques or recent approaches that employ
multi-stage object-by-object generation, MIDI extends pre-trained image-to-3D
object generation models to multi-instance diffusion models, enabling the
simultaneous generation of multiple 3D instances with accurate spatial
relationships and high generalizability. At its core, MIDI incorporates a novel
multi-instance attention mechanism, that effectively captures inter-object
interactions and spatial coherence directly within the generation process,
without the need for complex multi-step processes. The method utilizes partial
object images and global scene context as inputs, directly modeling object
completion during 3D generation. During training, we effectively supervise the
interactions between 3D instances using a limited amount of scene-level data,
while incorporating single-object data for regularization, thereby maintaining
the pre-trained generalization ability. MIDI demonstrates state-of-the-art
performance in image-to-scene generation, validated through evaluations on
synthetic data, real-world scene data, and stylized scene images generated by
text-to-image diffusion models.Summary
AI-Generated Summary