TexFusion: Síntese de Texturas 3D com Modelos de Difusão de Imagens Guiados por Texto
TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion Models
October 20, 2023
Autores: Tianshi Cao, Karsten Kreis, Sanja Fidler, Nicholas Sharp, Kangxue Yin
cs.AI
Resumo
Apresentamos o TexFusion (Texture Diffusion), um novo método para sintetizar texturas para geometrias 3D dadas, utilizando modelos de difusão de imagens em grande escala guiados por texto. Em contraste com trabalhos recentes que aproveitam modelos de difusão de texto para imagem em 2D para destilar objetos 3D usando um processo de otimização lento e frágil, o TexFusion introduz uma nova técnica de geração consistente em 3D especificamente projetada para síntese de texturas que emprega amostragem regular de modelos de difusão em diferentes vistas renderizadas em 2D. Especificamente, aproveitamos modelos de difusão latente, aplicamos o desnificador do modelo de difusão em um conjunto de renderizações 2D do objeto 3D e agregamos as diferentes previsões de desnificação em um mapa de textura latente compartilhado. As texturas RGB finais são produzidas otimizando um campo de cor neural intermediário nas decodificações das renderizações 2D da textura latente. Validamos minuciosamente o TexFusion e mostramos que podemos gerar de forma eficiente texturas diversas, de alta qualidade e globalmente coerentes. Alcançamos desempenho de síntese de texturas guiada por texto de última geração utilizando apenas modelos de difusão de imagens, evitando as armadilhas dos métodos anteriores baseados em destilação. O condicionamento por texto oferece controle detalhado e também não dependemos de nenhuma textura 3D de referência para treinamento. Isso torna nosso método versátil e aplicável a uma ampla gama de geometrias e tipos de textura. Esperamos que o TexFusion avance a texturização de ativos 3D baseada em IA para aplicações em realidade virtual, design de jogos, simulação e muito mais.
English
We present TexFusion (Texture Diffusion), a new method to synthesize textures
for given 3D geometries, using large-scale text-guided image diffusion models.
In contrast to recent works that leverage 2D text-to-image diffusion models to
distill 3D objects using a slow and fragile optimization process, TexFusion
introduces a new 3D-consistent generation technique specifically designed for
texture synthesis that employs regular diffusion model sampling on different 2D
rendered views. Specifically, we leverage latent diffusion models, apply the
diffusion model's denoiser on a set of 2D renders of the 3D object, and
aggregate the different denoising predictions on a shared latent texture map.
Final output RGB textures are produced by optimizing an intermediate neural
color field on the decodings of 2D renders of the latent texture. We thoroughly
validate TexFusion and show that we can efficiently generate diverse, high
quality and globally coherent textures. We achieve state-of-the-art text-guided
texture synthesis performance using only image diffusion models, while avoiding
the pitfalls of previous distillation-based methods. The text-conditioning
offers detailed control and we also do not rely on any ground truth 3D textures
for training. This makes our method versatile and applicable to a broad range
of geometry and texture types. We hope that TexFusion will advance AI-based
texturing of 3D assets for applications in virtual reality, game design,
simulation, and more.