ChatPaper.aiChatPaper

HexaGen3D: StableDiffusion está a solo un paso de la Generación Rápida y Diversa de Texto a 3D

HexaGen3D: StableDiffusion is just one step away from Fast and Diverse Text-to-3D Generation

January 15, 2024
Autores: Antoine Mercier, Ramin Nakhli, Mahesh Reddy, Rajeev Yasarla, Hong Cai, Fatih Porikli, Guillaume Berger
cs.AI

Resumen

A pesar de los últimos avances notables en modelado generativo, la generación eficiente de activos 3D de alta calidad a partir de indicaciones textuales sigue siendo una tarea difícil. Un desafío clave radica en la escasez de datos: los conjuntos de datos 3D más extensos abarcan apenas millones de activos, mientras que sus contrapartes 2D contienen miles de millones de pares texto-imagen. Para abordar esto, proponemos un enfoque novedoso que aprovecha el poder de los grandes modelos de difusión 2D preentrenados. Más específicamente, nuestro enfoque, HexaGen3D, ajusta un modelo preentrenado de texto a imagen para predecir conjuntamente 6 proyecciones ortográficas y el triplano latente correspondiente. Luego, decodificamos estos latentes para generar una malla texturizada. HexaGen3D no requiere optimización por muestra y puede inferir objetos de alta calidad y diversos a partir de indicaciones textuales en 7 segundos, ofreciendo un equilibrio significativamente mejor entre calidad y latencia en comparación con los enfoques existentes. Además, HexaGen3D demuestra una fuerte generalización a nuevos objetos o composiciones.
English
Despite the latest remarkable advances in generative modeling, efficient generation of high-quality 3D assets from textual prompts remains a difficult task. A key challenge lies in data scarcity: the most extensive 3D datasets encompass merely millions of assets, while their 2D counterparts contain billions of text-image pairs. To address this, we propose a novel approach which harnesses the power of large, pretrained 2D diffusion models. More specifically, our approach, HexaGen3D, fine-tunes a pretrained text-to-image model to jointly predict 6 orthographic projections and the corresponding latent triplane. We then decode these latents to generate a textured mesh. HexaGen3D does not require per-sample optimization, and can infer high-quality and diverse objects from textual prompts in 7 seconds, offering significantly better quality-to-latency trade-offs when comparing to existing approaches. Furthermore, HexaGen3D demonstrates strong generalization to new objects or compositions.
PDF111December 15, 2024