HexaGen3D: StableDiffusion is slechts één stap verwijderd van snelle en diverse tekst-naar-3D-generatie.
HexaGen3D: StableDiffusion is just one step away from Fast and Diverse Text-to-3D Generation
January 15, 2024
Auteurs: Antoine Mercier, Ramin Nakhli, Mahesh Reddy, Rajeev Yasarla, Hong Cai, Fatih Porikli, Guillaume Berger
cs.AI
Samenvatting
Ondanks de meest recente opmerkelijke vooruitgang in generatieve modellering, blijft de efficiënte generatie van hoogwaardige 3D-assets op basis van tekstuele prompts een uitdagende taak. Een belangrijke uitdaging ligt in de schaarste van data: de meest uitgebreide 3D-datasets omvatten slechts miljoenen assets, terwijl hun 2D-tegenhangers miljarden tekst-afbeeldingparen bevatten. Om dit aan te pakken, stellen we een nieuwe aanpak voor die gebruikmaakt van de kracht van grote, vooraf getrainde 2D-diffusiemodellen. Meer specifiek fine-tunt onze aanpak, HexaGen3D, een vooraf getraind tekst-naar-afbeeldingmodel om gezamenlijk 6 orthografische projecties en het corresponderende latente triplane te voorspellen. Vervolgens decoderen we deze latente representaties om een getextureerd mesh te genereren. HexaGen3D vereist geen per-sample optimalisatie en kan in 7 seconden hoogwaardige en diverse objecten afleiden uit tekstuele prompts, wat een aanzienlijk betere kwaliteit-latentie-afweging biedt in vergelijking met bestaande benaderingen. Bovendien toont HexaGen3D een sterke generalisatie naar nieuwe objecten of composities.
English
Despite the latest remarkable advances in generative modeling, efficient
generation of high-quality 3D assets from textual prompts remains a difficult
task. A key challenge lies in data scarcity: the most extensive 3D datasets
encompass merely millions of assets, while their 2D counterparts contain
billions of text-image pairs. To address this, we propose a novel approach
which harnesses the power of large, pretrained 2D diffusion models. More
specifically, our approach, HexaGen3D, fine-tunes a pretrained text-to-image
model to jointly predict 6 orthographic projections and the corresponding
latent triplane. We then decode these latents to generate a textured mesh.
HexaGen3D does not require per-sample optimization, and can infer high-quality
and diverse objects from textual prompts in 7 seconds, offering significantly
better quality-to-latency trade-offs when comparing to existing approaches.
Furthermore, HexaGen3D demonstrates strong generalization to new objects or
compositions.