Geometrie-Bild-Diffusion: Schnelle und dateneffiziente Text-zu-3D-Generierung mit bildbasierter Oberflächendarstellung
Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation
September 5, 2024
papers.authors: Slava Elizarov, Ciara Rowles, Simon Donné
cs.AI
papers.abstract
Die Erzeugung hochwertiger 3D-Objekte aus textuellen Beschreibungen bleibt aufgrund der hohen Rechenkosten, der Knappheit von 3D-Daten und der komplexen 3D-Darstellungen eine anspruchsvolle Aufgabe. Wir stellen Geometry Image Diffusion (GIMDiffusion) vor, ein neuartiges Text-to-3D-Modell, das Geometrie-Bilder nutzt, um 3D-Formen effizient mit 2D-Bildern darzustellen und dadurch den Bedarf an komplexen 3D-fähigen Architekturen zu vermeiden. Durch die Integration eines Collaborative Control-Mechanismus nutzen wir die umfangreichen 2D-Prioritäten bestehender Text-to-Image-Modelle wie Stable Diffusion. Dies ermöglicht eine starke Generalisierung selbst bei begrenzten 3D-Trainingsdaten (was uns erlaubt, ausschließlich hochwertige Trainingsdaten zu verwenden) sowie die Kompatibilität mit Leitfadentechniken wie IPAdapter. Kurz gesagt ermöglicht GIMDiffusion die Erzeugung von 3D-Assets mit einer Geschwindigkeit, die mit aktuellen Text-to-Image-Modellen vergleichbar ist. Die generierten Objekte bestehen aus semantisch bedeutungsvollen, separaten Teilen und beinhalten interne Strukturen, was sowohl die Benutzerfreundlichkeit als auch die Vielseitigkeit erhöht.
English
Generating high-quality 3D objects from textual descriptions remains a
challenging problem due to computational cost, the scarcity of 3D data, and
complex 3D representations. We introduce Geometry Image Diffusion
(GIMDiffusion), a novel Text-to-3D model that utilizes geometry images to
efficiently represent 3D shapes using 2D images, thereby avoiding the need for
complex 3D-aware architectures. By integrating a Collaborative Control
mechanism, we exploit the rich 2D priors of existing Text-to-Image models such
as Stable Diffusion. This enables strong generalization even with limited 3D
training data (allowing us to use only high-quality training data) as well as
retaining compatibility with guidance techniques such as IPAdapter. In short,
GIMDiffusion enables the generation of 3D assets at speeds comparable to
current Text-to-Image models. The generated objects consist of semantically
meaningful, separate parts and include internal structures, enhancing both
usability and versatility.