Difusión de Imágenes Geométricas: Generación Rápida y Eficiente en Datos de Texto a 3D con Representación de Superficie Basada en Imágenes

Resumen

La generación de objetos 3D de alta calidad a partir de descripciones textuales sigue siendo un problema desafiante debido al costo computacional, la escasez de datos 3D y las representaciones 3D complejas. Presentamos Geometry Image Diffusion (GIMDiffusion), un modelo novedoso de Texto-a-3D que utiliza imágenes geométricas para representar eficientemente formas 3D mediante imágenes 2D, evitando así la necesidad de arquitecturas complejas conscientes de 3D. Al integrar un mecanismo de Control Colaborativo, aprovechamos los ricos conocimientos previos en 2D de modelos existentes de Texto-a-Imagen, como Stable Diffusion. Esto permite una fuerte generalización incluso con datos de entrenamiento 3D limitados (lo que nos permite utilizar únicamente datos de entrenamiento de alta calidad), además de mantener la compatibilidad con técnicas de guía como IPAdapter. En resumen, GIMDiffusion permite la generación de activos 3D a velocidades comparables a los modelos actuales de Texto-a-Imagen. Los objetos generados consisten en partes semánticamente significativas y separadas, e incluyen estructuras internas, mejorando tanto la usabilidad como la versatilidad.

English

Generating high-quality 3D objects from textual descriptions remains a challenging problem due to computational cost, the scarcity of 3D data, and complex 3D representations. We introduce Geometry Image Diffusion (GIMDiffusion), a novel Text-to-3D model that utilizes geometry images to efficiently represent 3D shapes using 2D images, thereby avoiding the need for complex 3D-aware architectures. By integrating a Collaborative Control mechanism, we exploit the rich 2D priors of existing Text-to-Image models such as Stable Diffusion. This enables strong generalization even with limited 3D training data (allowing us to use only high-quality training data) as well as retaining compatibility with guidance techniques such as IPAdapter. In short, GIMDiffusion enables the generation of 3D assets at speeds comparable to current Text-to-Image models. The generated objects consist of semantically meaningful, separate parts and include internal structures, enhancing both usability and versatility.

Difusión de Imágenes Geométricas: Generación Rápida y Eficiente en Datos de Texto a 3D con Representación de Superficie Basada en Imágenes

Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation

Resumen

Support