ChatPaper.aiChatPaper

Difusão de Imagem Geométrica: Texto para 3D Rápido e Eficiente em Dados com Representação de Superfície Baseada em Imagem

Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation

September 5, 2024
Autores: Slava Elizarov, Ciara Rowles, Simon Donné
cs.AI

Resumo

A geração de objetos 3D de alta qualidade a partir de descrições textuais continua a ser um problema desafiador devido ao custo computacional, à escassez de dados 3D e às representações 3D complexas. Apresentamos o GIMDiffusion (Geometry Image Diffusion), um novo modelo Texto-para-3D que utiliza imagens geométricas para representar formas 3D de forma eficiente usando imagens 2D, evitando assim a necessidade de arquiteturas complexas com consciência 3D. Ao integrar um mecanismo de Controle Colaborativo, exploramos os ricos *priors* 2D de modelos existentes de Texto-para-Imagem, como o Stable Diffusion. Isso permite uma forte generalização mesmo com dados de treinamento 3D limitados (permitindo-nos usar apenas dados de treinamento de alta qualidade), bem como a manutenção da compatibilidade com técnicas de orientação, como o IPAdapter. Em suma, o GIMDiffusion permite a geração de ativos 3D em velocidades comparáveis aos atuais modelos Texto-para-Imagem. Os objetos gerados consistem em partes separadas semanticamente significativas e incluem estruturas internas, aumentando tanto a usabilidade quanto a versatilidade.
English
Generating high-quality 3D objects from textual descriptions remains a challenging problem due to computational cost, the scarcity of 3D data, and complex 3D representations. We introduce Geometry Image Diffusion (GIMDiffusion), a novel Text-to-3D model that utilizes geometry images to efficiently represent 3D shapes using 2D images, thereby avoiding the need for complex 3D-aware architectures. By integrating a Collaborative Control mechanism, we exploit the rich 2D priors of existing Text-to-Image models such as Stable Diffusion. This enables strong generalization even with limited 3D training data (allowing us to use only high-quality training data) as well as retaining compatibility with guidance techniques such as IPAdapter. In short, GIMDiffusion enables the generation of 3D assets at speeds comparable to current Text-to-Image models. The generated objects consist of semantically meaningful, separate parts and include internal structures, enhancing both usability and versatility.
PDF273November 14, 2024