ChatPaper.aiChatPaper

HexaGen3D: StableDiffusion está a apenas um passo da Geração Rápida e Diversa de Texto para 3D

HexaGen3D: StableDiffusion is just one step away from Fast and Diverse Text-to-3D Generation

January 15, 2024
Autores: Antoine Mercier, Ramin Nakhli, Mahesh Reddy, Rajeev Yasarla, Hong Cai, Fatih Porikli, Guillaume Berger
cs.AI

Resumo

Apesar dos avanços mais recentes e notáveis na modelagem generativa, a geração eficiente de ativos 3D de alta qualidade a partir de prompts textuais continua sendo uma tarefa desafiadora. Um dos principais desafios reside na escassez de dados: os maiores conjuntos de dados 3D abrangem meramente milhões de ativos, enquanto suas contrapartes 2D contêm bilhões de pares texto-imagem. Para abordar isso, propomos uma nova abordagem que aproveita o poder de grandes modelos de difusão 2D pré-treinados. Mais especificamente, nossa abordagem, HexaGen3D, ajusta finamente um modelo pré-treinado de texto para imagem para prever conjuntamente 6 projeções ortográficas e o triplano latente correspondente. Em seguida, decodificamos esses latentes para gerar uma malha texturizada. O HexaGen3D não requer otimização por amostra e pode inferir objetos de alta qualidade e diversos a partir de prompts textuais em 7 segundos, oferecendo trade-offs significativamente melhores entre qualidade e latência quando comparado às abordagens existentes. Além disso, o HexaGen3D demonstra uma forte generalização para novos objetos ou composições.
English
Despite the latest remarkable advances in generative modeling, efficient generation of high-quality 3D assets from textual prompts remains a difficult task. A key challenge lies in data scarcity: the most extensive 3D datasets encompass merely millions of assets, while their 2D counterparts contain billions of text-image pairs. To address this, we propose a novel approach which harnesses the power of large, pretrained 2D diffusion models. More specifically, our approach, HexaGen3D, fine-tunes a pretrained text-to-image model to jointly predict 6 orthographic projections and the corresponding latent triplane. We then decode these latents to generate a textured mesh. HexaGen3D does not require per-sample optimization, and can infer high-quality and diverse objects from textual prompts in 7 seconds, offering significantly better quality-to-latency trade-offs when comparing to existing approaches. Furthermore, HexaGen3D demonstrates strong generalization to new objects or compositions.
PDF111December 15, 2024