TEXGen: um Modelo de Difusão Generativa para Texturas de Malha

Resumo

Embora mapas de textura de alta qualidade sejam essenciais para a renderização realista de ativos 3D, poucos estudos exploraram a aprendizagem diretamente no espaço de textura, especialmente em conjuntos de dados em grande escala. Neste trabalho, nos afastamos da abordagem convencional de depender de modelos de difusão 2D pré-treinados para otimização em tempo de teste de texturas 3D. Em vez disso, focamos no problema fundamental de aprendizagem no espaço de textura UV em si. Pela primeira vez, treinamos um grande modelo de difusão capaz de gerar diretamente mapas de textura de alta resolução de forma direta. Para facilitar a aprendizagem eficiente em espaços de textura UV de alta resolução, propomos uma arquitetura de rede escalável que entrelaça convoluções em mapas UV com camadas de atenção em nuvens de pontos. Aproveitando esse design arquitetônico, treinamos um modelo de difusão com 700 milhões de parâmetros que pode gerar mapas de textura UV guiados por prompts de texto e imagens de única vista. Uma vez treinado, nosso modelo naturalmente suporta várias aplicações estendidas, incluindo preenchimento de textura guiado por texto, conclusão de textura de visualização esparsa e síntese de textura orientada por texto. A página do projeto está em http://cvmi-lab.github.io/TEXGen/.

English

While high-quality texture maps are essential for realistic 3D asset rendering, few studies have explored learning directly in the texture space, especially on large-scale datasets. In this work, we depart from the conventional approach of relying on pre-trained 2D diffusion models for test-time optimization of 3D textures. Instead, we focus on the fundamental problem of learning in the UV texture space itself. For the first time, we train a large diffusion model capable of directly generating high-resolution texture maps in a feed-forward manner. To facilitate efficient learning in high-resolution UV spaces, we propose a scalable network architecture that interleaves convolutions on UV maps with attention layers on point clouds. Leveraging this architectural design, we train a 700 million parameter diffusion model that can generate UV texture maps guided by text prompts and single-view images. Once trained, our model naturally supports various extended applications, including text-guided texture inpainting, sparse-view texture completion, and text-driven texture synthesis. Project page is at http://cvmi-lab.github.io/TEXGen/.

TEXGen: um Modelo de Difusão Generativa para Texturas de Malha

TEXGen: a Generative Diffusion Model for Mesh Textures

Resumo

Support