TEXGen : un modèle de diffusion générative pour les textures de maillage
TEXGen: a Generative Diffusion Model for Mesh Textures
November 22, 2024
Auteurs: Xin Yu, Ze Yuan, Yuan-Chen Guo, Ying-Tian Liu, JianHui Liu, Yangguang Li, Yan-Pei Cao, Ding Liang, Xiaojuan Qi
cs.AI
Résumé
Alors que des cartes de texture de haute qualité sont essentielles pour le rendu réaliste des actifs 3D, peu d'études ont exploré l'apprentissage directement dans l'espace de texture, en particulier sur des ensembles de données à grande échelle. Dans ce travail, nous nous éloignons de l'approche conventionnelle qui repose sur des modèles de diffusion 2D pré-entraînés pour l'optimisation des textures 3D au moment du test. Au lieu de cela, nous nous concentrons sur le problème fondamental de l'apprentissage dans l'espace de texture UV lui-même. Pour la première fois, nous entraînons un grand modèle de diffusion capable de générer directement des cartes de texture haute résolution de manière feed-forward. Pour faciliter l'apprentissage efficace dans les espaces de texture UV haute résolution, nous proposons une architecture de réseau évolutive qui entrelace des convolutions sur les cartes UV avec des couches d'attention sur les nuages de points. En exploitant cette conception architecturale, nous entraînons un modèle de diffusion de 700 millions de paramètres qui peut générer des cartes de texture UV guidées par des instructions textuelles et des images à vue unique. Une fois entraîné, notre modèle prend naturellement en charge diverses applications étendues, notamment l'inpainting de texture guidé par du texte, l'achèvement de texture à vue clairsemée et la synthèse de texture pilotée par du texte. La page du projet se trouve sur http://cvmi-lab.github.io/TEXGen/.
English
While high-quality texture maps are essential for realistic 3D asset
rendering, few studies have explored learning directly in the texture space,
especially on large-scale datasets. In this work, we depart from the
conventional approach of relying on pre-trained 2D diffusion models for
test-time optimization of 3D textures. Instead, we focus on the fundamental
problem of learning in the UV texture space itself. For the first time, we
train a large diffusion model capable of directly generating high-resolution
texture maps in a feed-forward manner. To facilitate efficient learning in
high-resolution UV spaces, we propose a scalable network architecture that
interleaves convolutions on UV maps with attention layers on point clouds.
Leveraging this architectural design, we train a 700 million parameter
diffusion model that can generate UV texture maps guided by text prompts and
single-view images. Once trained, our model naturally supports various extended
applications, including text-guided texture inpainting, sparse-view texture
completion, and text-driven texture synthesis. Project page is at
http://cvmi-lab.github.io/TEXGen/.Summary
AI-Generated Summary