HexaGen3D: StableDiffusion è a un solo passo da una Generazione Testo-3D Veloce e Diversificata
HexaGen3D: StableDiffusion is just one step away from Fast and Diverse Text-to-3D Generation
January 15, 2024
Autori: Antoine Mercier, Ramin Nakhli, Mahesh Reddy, Rajeev Yasarla, Hong Cai, Fatih Porikli, Guillaume Berger
cs.AI
Abstract
Nonostante i recenti e notevoli progressi nella modellazione generativa, la generazione efficiente di asset 3D di alta qualità a partire da prompt testuali rimane un compito complesso. Una delle principali sfide risiede nella scarsità di dati: i dataset 3D più estesi comprendono appena milioni di asset, mentre le loro controparti 2D contengono miliardi di coppie testo-immagine. Per affrontare questo problema, proponiamo un approccio innovativo che sfrutta la potenza di grandi modelli di diffusione 2D preaddestrati. Più nello specifico, il nostro approccio, HexaGen3D, perfeziona un modello preaddestrato di testo-immagine per prevedere congiuntamente 6 proiezioni ortografiche e il corrispondente triplanare latente. Successivamente, decodifichiamo questi latenti per generare una mesh texturizzata. HexaGen3D non richiede ottimizzazione per ogni campione e può inferire oggetti di alta qualità e diversificati da prompt testuali in 7 secondi, offrendo un compromesso qualità-latenza significativamente migliore rispetto agli approcci esistenti. Inoltre, HexaGen3D dimostra una forte generalizzazione a nuovi oggetti o composizioni.
English
Despite the latest remarkable advances in generative modeling, efficient
generation of high-quality 3D assets from textual prompts remains a difficult
task. A key challenge lies in data scarcity: the most extensive 3D datasets
encompass merely millions of assets, while their 2D counterparts contain
billions of text-image pairs. To address this, we propose a novel approach
which harnesses the power of large, pretrained 2D diffusion models. More
specifically, our approach, HexaGen3D, fine-tunes a pretrained text-to-image
model to jointly predict 6 orthographic projections and the corresponding
latent triplane. We then decode these latents to generate a textured mesh.
HexaGen3D does not require per-sample optimization, and can infer high-quality
and diverse objects from textual prompts in 7 seconds, offering significantly
better quality-to-latency trade-offs when comparing to existing approaches.
Furthermore, HexaGen3D demonstrates strong generalization to new objects or
compositions.