TEXGen: um Modelo de Difusão Generativa para Texturas de Malha
TEXGen: a Generative Diffusion Model for Mesh Textures
November 22, 2024
Autores: Xin Yu, Ze Yuan, Yuan-Chen Guo, Ying-Tian Liu, JianHui Liu, Yangguang Li, Yan-Pei Cao, Ding Liang, Xiaojuan Qi
cs.AI
Resumo
Embora mapas de textura de alta qualidade sejam essenciais para a renderização realista de ativos 3D, poucos estudos exploraram a aprendizagem diretamente no espaço de textura, especialmente em conjuntos de dados em grande escala. Neste trabalho, nos afastamos da abordagem convencional de depender de modelos de difusão 2D pré-treinados para otimização em tempo de teste de texturas 3D. Em vez disso, focamos no problema fundamental de aprendizagem no espaço de textura UV em si. Pela primeira vez, treinamos um grande modelo de difusão capaz de gerar diretamente mapas de textura de alta resolução de forma direta. Para facilitar a aprendizagem eficiente em espaços de textura UV de alta resolução, propomos uma arquitetura de rede escalável que entrelaça convoluções em mapas UV com camadas de atenção em nuvens de pontos. Aproveitando esse design arquitetônico, treinamos um modelo de difusão com 700 milhões de parâmetros que pode gerar mapas de textura UV guiados por prompts de texto e imagens de única vista. Uma vez treinado, nosso modelo naturalmente suporta várias aplicações estendidas, incluindo preenchimento de textura guiado por texto, conclusão de textura de visualização esparsa e síntese de textura orientada por texto. A página do projeto está em http://cvmi-lab.github.io/TEXGen/.
English
While high-quality texture maps are essential for realistic 3D asset
rendering, few studies have explored learning directly in the texture space,
especially on large-scale datasets. In this work, we depart from the
conventional approach of relying on pre-trained 2D diffusion models for
test-time optimization of 3D textures. Instead, we focus on the fundamental
problem of learning in the UV texture space itself. For the first time, we
train a large diffusion model capable of directly generating high-resolution
texture maps in a feed-forward manner. To facilitate efficient learning in
high-resolution UV spaces, we propose a scalable network architecture that
interleaves convolutions on UV maps with attention layers on point clouds.
Leveraging this architectural design, we train a 700 million parameter
diffusion model that can generate UV texture maps guided by text prompts and
single-view images. Once trained, our model naturally supports various extended
applications, including text-guided texture inpainting, sparse-view texture
completion, and text-driven texture synthesis. Project page is at
http://cvmi-lab.github.io/TEXGen/.Summary
AI-Generated Summary