Géométrie par Diffusion d'Images : Génération rapide et économe en données de texte vers 3D avec une représentation surfacique basée sur l'image
Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation
September 5, 2024
papers.authors: Slava Elizarov, Ciara Rowles, Simon Donné
cs.AI
papers.abstract
La génération d'objets 3D de haute qualité à partir de descriptions textuelles reste un problème difficile en raison du coût computationnel, de la rareté des données 3D et de la complexité des représentations 3D. Nous présentons GIMDiffusion (Geometry Image Diffusion), un nouveau modèle Texte-vers-3D qui utilise des images de géométrie pour représenter efficacement les formes 3D à l'aide d'images 2D, évitant ainsi le recours à des architectures complexes dédiées au 3D. En intégrant un mécanisme de Contrôle Collaboratif, nous exploitons les riches connaissances a priori des modèles existants Texte-vers-Image, tels que Stable Diffusion. Cela permet une forte généralisation même avec peu de données d'entraînement 3D (nous autorisant à n'utiliser que des données de haute qualité) tout en conservant la compatibilité avec des techniques de guidage comme IPAdapter. En résumé, GIMDiffusion permet la génération d'assets 3D à des vitesses comparables aux modèles Texte-vers-Image actuels. Les objets générés se composent de parties distinctes et sémantiquement significatives et incluent des structures internes, améliorant ainsi à la fois leur utilisabilité et leur polyvalence.
English
Generating high-quality 3D objects from textual descriptions remains a
challenging problem due to computational cost, the scarcity of 3D data, and
complex 3D representations. We introduce Geometry Image Diffusion
(GIMDiffusion), a novel Text-to-3D model that utilizes geometry images to
efficiently represent 3D shapes using 2D images, thereby avoiding the need for
complex 3D-aware architectures. By integrating a Collaborative Control
mechanism, we exploit the rich 2D priors of existing Text-to-Image models such
as Stable Diffusion. This enables strong generalization even with limited 3D
training data (allowing us to use only high-quality training data) as well as
retaining compatibility with guidance techniques such as IPAdapter. In short,
GIMDiffusion enables the generation of 3D assets at speeds comparable to
current Text-to-Image models. The generated objects consist of semantically
meaningful, separate parts and include internal structures, enhancing both
usability and versatility.