HexaGen3D: StableDiffusion está a solo un paso de la Generación Rápida y Diversa de Texto a 3D
HexaGen3D: StableDiffusion is just one step away from Fast and Diverse Text-to-3D Generation
January 15, 2024
Autores: Antoine Mercier, Ramin Nakhli, Mahesh Reddy, Rajeev Yasarla, Hong Cai, Fatih Porikli, Guillaume Berger
cs.AI
Resumen
A pesar de los últimos avances notables en modelado generativo, la generación eficiente de activos 3D de alta calidad a partir de indicaciones textuales sigue siendo una tarea difícil. Un desafío clave radica en la escasez de datos: los conjuntos de datos 3D más extensos abarcan apenas millones de activos, mientras que sus contrapartes 2D contienen miles de millones de pares texto-imagen. Para abordar esto, proponemos un enfoque novedoso que aprovecha el poder de los grandes modelos de difusión 2D preentrenados. Más específicamente, nuestro enfoque, HexaGen3D, ajusta un modelo preentrenado de texto a imagen para predecir conjuntamente 6 proyecciones ortográficas y el triplano latente correspondiente. Luego, decodificamos estos latentes para generar una malla texturizada. HexaGen3D no requiere optimización por muestra y puede inferir objetos de alta calidad y diversos a partir de indicaciones textuales en 7 segundos, ofreciendo un equilibrio significativamente mejor entre calidad y latencia en comparación con los enfoques existentes. Además, HexaGen3D demuestra una fuerte generalización a nuevos objetos o composiciones.
English
Despite the latest remarkable advances in generative modeling, efficient
generation of high-quality 3D assets from textual prompts remains a difficult
task. A key challenge lies in data scarcity: the most extensive 3D datasets
encompass merely millions of assets, while their 2D counterparts contain
billions of text-image pairs. To address this, we propose a novel approach
which harnesses the power of large, pretrained 2D diffusion models. More
specifically, our approach, HexaGen3D, fine-tunes a pretrained text-to-image
model to jointly predict 6 orthographic projections and the corresponding
latent triplane. We then decode these latents to generate a textured mesh.
HexaGen3D does not require per-sample optimization, and can infer high-quality
and diverse objects from textual prompts in 7 seconds, offering significantly
better quality-to-latency trade-offs when comparing to existing approaches.
Furthermore, HexaGen3D demonstrates strong generalization to new objects or
compositions.