ChatPaper.aiChatPaper

Geometrie-Bild-Diffusion: Schnelle und dateneffiziente Text-zu-3D-Generierung mit bildbasierter Oberflächendarstellung

Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation

September 5, 2024
papers.authors: Slava Elizarov, Ciara Rowles, Simon Donné
cs.AI

papers.abstract

Die Erzeugung hochwertiger 3D-Objekte aus textuellen Beschreibungen bleibt aufgrund der hohen Rechenkosten, der Knappheit von 3D-Daten und der komplexen 3D-Darstellungen eine anspruchsvolle Aufgabe. Wir stellen Geometry Image Diffusion (GIMDiffusion) vor, ein neuartiges Text-to-3D-Modell, das Geometrie-Bilder nutzt, um 3D-Formen effizient mit 2D-Bildern darzustellen und dadurch den Bedarf an komplexen 3D-fähigen Architekturen zu vermeiden. Durch die Integration eines Collaborative Control-Mechanismus nutzen wir die umfangreichen 2D-Prioritäten bestehender Text-to-Image-Modelle wie Stable Diffusion. Dies ermöglicht eine starke Generalisierung selbst bei begrenzten 3D-Trainingsdaten (was uns erlaubt, ausschließlich hochwertige Trainingsdaten zu verwenden) sowie die Kompatibilität mit Leitfadentechniken wie IPAdapter. Kurz gesagt ermöglicht GIMDiffusion die Erzeugung von 3D-Assets mit einer Geschwindigkeit, die mit aktuellen Text-to-Image-Modellen vergleichbar ist. Die generierten Objekte bestehen aus semantisch bedeutungsvollen, separaten Teilen und beinhalten interne Strukturen, was sowohl die Benutzerfreundlichkeit als auch die Vielseitigkeit erhöht.
English
Generating high-quality 3D objects from textual descriptions remains a challenging problem due to computational cost, the scarcity of 3D data, and complex 3D representations. We introduce Geometry Image Diffusion (GIMDiffusion), a novel Text-to-3D model that utilizes geometry images to efficiently represent 3D shapes using 2D images, thereby avoiding the need for complex 3D-aware architectures. By integrating a Collaborative Control mechanism, we exploit the rich 2D priors of existing Text-to-Image models such as Stable Diffusion. This enables strong generalization even with limited 3D training data (allowing us to use only high-quality training data) as well as retaining compatibility with guidance techniques such as IPAdapter. In short, GIMDiffusion enables the generation of 3D assets at speeds comparable to current Text-to-Image models. The generated objects consist of semantically meaningful, separate parts and include internal structures, enhancing both usability and versatility.
PDF273November 14, 2024