ChatPaper.aiChatPaper

HexaGen3D: StableDiffusion is slechts één stap verwijderd van snelle en diverse tekst-naar-3D-generatie.

HexaGen3D: StableDiffusion is just one step away from Fast and Diverse Text-to-3D Generation

January 15, 2024
Auteurs: Antoine Mercier, Ramin Nakhli, Mahesh Reddy, Rajeev Yasarla, Hong Cai, Fatih Porikli, Guillaume Berger
cs.AI

Samenvatting

Ondanks de meest recente opmerkelijke vooruitgang in generatieve modellering, blijft de efficiënte generatie van hoogwaardige 3D-assets op basis van tekstuele prompts een uitdagende taak. Een belangrijke uitdaging ligt in de schaarste van data: de meest uitgebreide 3D-datasets omvatten slechts miljoenen assets, terwijl hun 2D-tegenhangers miljarden tekst-afbeeldingparen bevatten. Om dit aan te pakken, stellen we een nieuwe aanpak voor die gebruikmaakt van de kracht van grote, vooraf getrainde 2D-diffusiemodellen. Meer specifiek fine-tunt onze aanpak, HexaGen3D, een vooraf getraind tekst-naar-afbeeldingmodel om gezamenlijk 6 orthografische projecties en het corresponderende latente triplane te voorspellen. Vervolgens decoderen we deze latente representaties om een getextureerd mesh te genereren. HexaGen3D vereist geen per-sample optimalisatie en kan in 7 seconden hoogwaardige en diverse objecten afleiden uit tekstuele prompts, wat een aanzienlijk betere kwaliteit-latentie-afweging biedt in vergelijking met bestaande benaderingen. Bovendien toont HexaGen3D een sterke generalisatie naar nieuwe objecten of composities.
English
Despite the latest remarkable advances in generative modeling, efficient generation of high-quality 3D assets from textual prompts remains a difficult task. A key challenge lies in data scarcity: the most extensive 3D datasets encompass merely millions of assets, while their 2D counterparts contain billions of text-image pairs. To address this, we propose a novel approach which harnesses the power of large, pretrained 2D diffusion models. More specifically, our approach, HexaGen3D, fine-tunes a pretrained text-to-image model to jointly predict 6 orthographic projections and the corresponding latent triplane. We then decode these latents to generate a textured mesh. HexaGen3D does not require per-sample optimization, and can infer high-quality and diverse objects from textual prompts in 7 seconds, offering significantly better quality-to-latency trade-offs when comparing to existing approaches. Furthermore, HexaGen3D demonstrates strong generalization to new objects or compositions.
PDF111December 15, 2024