ChatPaper.aiChatPaper

Diffusione di Immagini Geometriche: Text-to-3D Veloce ed Efficiente nei Dati con Rappresentazione della Superficie Basata su Immagini

Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation

September 5, 2024
Autori: Slava Elizarov, Ciara Rowles, Simon Donné
cs.AI

Abstract

La generazione di oggetti 3D di alta qualità a partire da descrizioni testuali rimane un problema complesso a causa dei costi computazionali, della scarsità di dati 3D e delle rappresentazioni 3D intricate. Introduciamo Geometry Image Diffusion (GIMDiffusion), un innovativo modello Text-to-3D che utilizza geometry images per rappresentare efficientemente le forme 3D mediante immagini 2D, evitando così la necessità di architetture complesse orientate al 3D. Integrando un meccanismo di Collaborative Control, sfruttiamo i ricchi prerequisiti 2D di modelli Text-to-Image esistenti come Stable Diffusion. Ciò consente una forte generalizzazione anche con dati di addestramento 3D limitati (permettendoci di utilizzare esclusivamente dati di addestramento di alta qualità) e mantiene la compatibilità con tecniche di guida come IPAdapter. In sintesi, GIMDiffusion permette la generazione di asset 3D a velocità paragonabili agli attuali modelli Text-to-Image. Gli oggetti generati sono composti da parti separate semanticamente significative e includono strutture interne, migliorandone sia l'usabilità che la versatilità.
English
Generating high-quality 3D objects from textual descriptions remains a challenging problem due to computational cost, the scarcity of 3D data, and complex 3D representations. We introduce Geometry Image Diffusion (GIMDiffusion), a novel Text-to-3D model that utilizes geometry images to efficiently represent 3D shapes using 2D images, thereby avoiding the need for complex 3D-aware architectures. By integrating a Collaborative Control mechanism, we exploit the rich 2D priors of existing Text-to-Image models such as Stable Diffusion. This enables strong generalization even with limited 3D training data (allowing us to use only high-quality training data) as well as retaining compatibility with guidance techniques such as IPAdapter. In short, GIMDiffusion enables the generation of 3D assets at speeds comparable to current Text-to-Image models. The generated objects consist of semantically meaningful, separate parts and include internal structures, enhancing both usability and versatility.
PDF273November 14, 2024