Geometrie-afbeeldingdiffusie: Snelle en data-efficiënte tekst-naar-3D met op afbeeldingen gebaseerde oppervlakterepresentatie
Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation
September 5, 2024
Auteurs: Slava Elizarov, Ciara Rowles, Simon Donné
cs.AI
Samenvatting
Het genereren van hoogwaardige 3D-objecten op basis van tekstuele beschrijvingen blijft een uitdagend probleem vanwege de rekenkosten, de schaarste aan 3D-data en complexe 3D-representaties. Wij introduceren Geometry Image Diffusion (GIMDiffusion), een nieuw Text-to-3D-model dat gebruikmaakt van geometrie-afbeeldingen om 3D-vormen efficiënt weer te geven met behulp van 2D-afbeeldingen, waardoor complexe 3D-architecturen overbodig worden. Door de integratie van een Collaboratief Controle-mechanisme benutten we de rijke 2D-priors van bestaande Text-to-Image-modellen zoals Stable Diffusion. Hierdoor is sterke generalisatie mogelijk, zelfs met beperkte 3D-trainingsdata (waardoor we uitsluitend hoogwaardige trainingsdata kunnen gebruiken), en blijft compatibiliteit met begeleidingstechnieken zoals IPAdapter behouden. Kortom, GIMDiffusion maakt het mogelijk 3D-assets te genereren met een snelheid die vergelijkbaar is met huidige Text-to-Image-modellen. De gegenereerde objecten bestaan uit semantisch betekenisvolle, afzonderlijke onderdelen en omvatten interne structuren, wat zowel de bruikbaarheid als de veelzijdigheid vergroot.
English
Generating high-quality 3D objects from textual descriptions remains a
challenging problem due to computational cost, the scarcity of 3D data, and
complex 3D representations. We introduce Geometry Image Diffusion
(GIMDiffusion), a novel Text-to-3D model that utilizes geometry images to
efficiently represent 3D shapes using 2D images, thereby avoiding the need for
complex 3D-aware architectures. By integrating a Collaborative Control
mechanism, we exploit the rich 2D priors of existing Text-to-Image models such
as Stable Diffusion. This enables strong generalization even with limited 3D
training data (allowing us to use only high-quality training data) as well as
retaining compatibility with guidance techniques such as IPAdapter. In short,
GIMDiffusion enables the generation of 3D assets at speeds comparable to
current Text-to-Image models. The generated objects consist of semantically
meaningful, separate parts and include internal structures, enhancing both
usability and versatility.