ChatPaper.aiChatPaper

TexFusion : Synthèse de textures 3D avec des modèles de diffusion d'images guidés par texte

TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion Models

October 20, 2023
Auteurs: Tianshi Cao, Karsten Kreis, Sanja Fidler, Nicholas Sharp, Kangxue Yin
cs.AI

Résumé

Nous présentons TexFusion (Texture Diffusion), une nouvelle méthode pour synthétiser des textures pour des géométries 3D données, en utilisant des modèles de diffusion d'images guidés par texte à grande échelle. Contrairement aux travaux récents qui exploitent des modèles de diffusion texte-à-image 2D pour distiller des objets 3D via un processus d'optimisation lent et fragile, TexFusion introduit une technique de génération 3D cohérente spécialement conçue pour la synthèse de textures, qui utilise un échantillonnage régulier de modèles de diffusion sur différentes vues 2D rendues. Plus précisément, nous exploitons des modèles de diffusion latents, appliquons le débruiteur du modèle de diffusion sur un ensemble de rendus 2D de l'objet 3D, et agrégons les différentes prédictions de débruitage sur une carte de texture latente partagée. Les textures RGB finales sont produites en optimisant un champ de couleur neural intermédiaire sur les décodages des rendus 2D de la texture latente. Nous validons rigoureusement TexFusion et montrons que nous pouvons générer efficacement des textures diversifiées, de haute qualité et globalement cohérentes. Nous atteignons des performances de pointe en synthèse de textures guidée par texte en utilisant uniquement des modèles de diffusion d'images, tout en évitant les écueils des méthodes précédentes basées sur la distillation. Le conditionnement par texte offre un contrôle détaillé, et nous ne dépendons d'aucune texture 3D de référence pour l'entraînement. Cela rend notre méthode polyvalente et applicable à une large gamme de géométries et de types de textures. Nous espérons que TexFusion fera progresser la texturation basée sur l'IA des actifs 3D pour des applications en réalité virtuelle, conception de jeux, simulation, et bien plus encore.
English
We present TexFusion (Texture Diffusion), a new method to synthesize textures for given 3D geometries, using large-scale text-guided image diffusion models. In contrast to recent works that leverage 2D text-to-image diffusion models to distill 3D objects using a slow and fragile optimization process, TexFusion introduces a new 3D-consistent generation technique specifically designed for texture synthesis that employs regular diffusion model sampling on different 2D rendered views. Specifically, we leverage latent diffusion models, apply the diffusion model's denoiser on a set of 2D renders of the 3D object, and aggregate the different denoising predictions on a shared latent texture map. Final output RGB textures are produced by optimizing an intermediate neural color field on the decodings of 2D renders of the latent texture. We thoroughly validate TexFusion and show that we can efficiently generate diverse, high quality and globally coherent textures. We achieve state-of-the-art text-guided texture synthesis performance using only image diffusion models, while avoiding the pitfalls of previous distillation-based methods. The text-conditioning offers detailed control and we also do not rely on any ground truth 3D textures for training. This makes our method versatile and applicable to a broad range of geometry and texture types. We hope that TexFusion will advance AI-based texturing of 3D assets for applications in virtual reality, game design, simulation, and more.
PDF72December 15, 2024