HexaGen3D : StableDiffusion n'est qu'à un pas d'une génération rapide et diversifiée de texte en 3D
HexaGen3D: StableDiffusion is just one step away from Fast and Diverse Text-to-3D Generation
January 15, 2024
Auteurs: Antoine Mercier, Ramin Nakhli, Mahesh Reddy, Rajeev Yasarla, Hong Cai, Fatih Porikli, Guillaume Berger
cs.AI
Résumé
Malgré les avancées remarquables récentes en modélisation générative, la génération efficace d'actifs 3D de haute qualité à partir de prompts textuels reste une tâche difficile. Un défi majeur réside dans la rareté des données : les ensembles de données 3D les plus étendus ne contiennent que des millions d'actifs, tandis que leurs équivalents 2D incluent des milliards de paires texte-image. Pour y remédier, nous proposons une nouvelle approche qui exploite la puissance des grands modèles de diffusion 2D pré-entraînés. Plus précisément, notre approche, HexaGen3D, affine un modèle texte-à-image pré-entraîné pour prédire conjointement 6 projections orthographiques et le triplan latent correspondant. Nous décodons ensuite ces latents pour générer un maillage texturé. HexaGen3D ne nécessite pas d'optimisation par échantillon et peut inférer des objets de haute qualité et diversifiés à partir de prompts textuels en 7 secondes, offrant un compromis qualité-latence bien meilleur par rapport aux approches existantes. De plus, HexaGen3D démontre une forte généralisation à de nouveaux objets ou compositions.
English
Despite the latest remarkable advances in generative modeling, efficient
generation of high-quality 3D assets from textual prompts remains a difficult
task. A key challenge lies in data scarcity: the most extensive 3D datasets
encompass merely millions of assets, while their 2D counterparts contain
billions of text-image pairs. To address this, we propose a novel approach
which harnesses the power of large, pretrained 2D diffusion models. More
specifically, our approach, HexaGen3D, fine-tunes a pretrained text-to-image
model to jointly predict 6 orthographic projections and the corresponding
latent triplane. We then decode these latents to generate a textured mesh.
HexaGen3D does not require per-sample optimization, and can infer high-quality
and diverse objects from textual prompts in 7 seconds, offering significantly
better quality-to-latency trade-offs when comparing to existing approaches.
Furthermore, HexaGen3D demonstrates strong generalization to new objects or
compositions.