ChatPaper.aiChatPaper

HexaGen3D : StableDiffusion n'est qu'à un pas d'une génération rapide et diversifiée de texte en 3D

HexaGen3D: StableDiffusion is just one step away from Fast and Diverse Text-to-3D Generation

January 15, 2024
Auteurs: Antoine Mercier, Ramin Nakhli, Mahesh Reddy, Rajeev Yasarla, Hong Cai, Fatih Porikli, Guillaume Berger
cs.AI

Résumé

Malgré les avancées remarquables récentes en modélisation générative, la génération efficace d'actifs 3D de haute qualité à partir de prompts textuels reste une tâche difficile. Un défi majeur réside dans la rareté des données : les ensembles de données 3D les plus étendus ne contiennent que des millions d'actifs, tandis que leurs équivalents 2D incluent des milliards de paires texte-image. Pour y remédier, nous proposons une nouvelle approche qui exploite la puissance des grands modèles de diffusion 2D pré-entraînés. Plus précisément, notre approche, HexaGen3D, affine un modèle texte-à-image pré-entraîné pour prédire conjointement 6 projections orthographiques et le triplan latent correspondant. Nous décodons ensuite ces latents pour générer un maillage texturé. HexaGen3D ne nécessite pas d'optimisation par échantillon et peut inférer des objets de haute qualité et diversifiés à partir de prompts textuels en 7 secondes, offrant un compromis qualité-latence bien meilleur par rapport aux approches existantes. De plus, HexaGen3D démontre une forte généralisation à de nouveaux objets ou compositions.
English
Despite the latest remarkable advances in generative modeling, efficient generation of high-quality 3D assets from textual prompts remains a difficult task. A key challenge lies in data scarcity: the most extensive 3D datasets encompass merely millions of assets, while their 2D counterparts contain billions of text-image pairs. To address this, we propose a novel approach which harnesses the power of large, pretrained 2D diffusion models. More specifically, our approach, HexaGen3D, fine-tunes a pretrained text-to-image model to jointly predict 6 orthographic projections and the corresponding latent triplane. We then decode these latents to generate a textured mesh. HexaGen3D does not require per-sample optimization, and can infer high-quality and diverse objects from textual prompts in 7 seconds, offering significantly better quality-to-latency trade-offs when comparing to existing approaches. Furthermore, HexaGen3D demonstrates strong generalization to new objects or compositions.
PDF111December 15, 2024