ChatPaper.aiChatPaper

TexGen : Génération de textures 3D guidée par texte avec échantillonnage multi-vues et rééchantillonnage

TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling

August 2, 2024
Auteurs: Dong Huo, Zixin Guo, Xinxin Zuo, Zhihao Shi, Juwei Lu, Peng Dai, Songcen Xu, Li Cheng, Yee-Hong Yang
cs.AI

Résumé

Étant donné un maillage 3D, nous visons à synthétiser des textures 3D correspondant à des descriptions textuelles arbitraires. Les méthodes actuelles pour générer et assembler des textures à partir de vues échantillonnées entraînent souvent des coutures visibles ou un lissage excessif. Pour résoudre ces problèmes, nous présentons TexGen, un nouveau cadre d'échantillonnage et de rééchantillonnage multi-vues pour la génération de textures, exploitant un modèle de diffusion texte-à-image pré-entraîné. Pour un échantillonnage cohérent entre les vues, nous maintenons d'abord une carte de texture dans l'espace RGB, paramétrée par l'étape de débruitage et mise à jour après chaque étape d'échantillonnage du modèle de diffusion, afin de réduire progressivement les écarts entre les vues. Une stratégie d'échantillonnage multi-vues guidée par l'attention est exploitée pour diffuser les informations d'apparence à travers les vues. Pour préserver les détails de la texture, nous développons une technique de rééchantillonnage du bruit qui aide à estimer le bruit, générant des entrées pour les étapes de débruitage suivantes, en fonction de l'invite textuelle et de la carte de texture actuelle. Grâce à une évaluation qualitative et quantitative approfondie, nous démontrons que notre méthode proposée produit des textures de qualité significativement meilleure pour divers objets 3D, avec un haut degré de cohérence entre les vues et des détails d'apparence riches, surpassant les méthodes actuelles de pointe. De plus, notre technique de génération de textures peut également être appliquée à l'édition de textures tout en préservant l'identité originale. Plus de résultats expérimentaux sont disponibles à l'adresse https://dong-huo.github.io/TexGen/.
English
Given a 3D mesh, we aim to synthesize 3D textures that correspond to arbitrary textual descriptions. Current methods for generating and assembling textures from sampled views often result in prominent seams or excessive smoothing. To tackle these issues, we present TexGen, a novel multi-view sampling and resampling framework for texture generation leveraging a pre-trained text-to-image diffusion model. For view consistent sampling, first of all we maintain a texture map in RGB space that is parameterized by the denoising step and updated after each sampling step of the diffusion model to progressively reduce the view discrepancy. An attention-guided multi-view sampling strategy is exploited to broadcast the appearance information across views. To preserve texture details, we develop a noise resampling technique that aids in the estimation of noise, generating inputs for subsequent denoising steps, as directed by the text prompt and current texture map. Through an extensive amount of qualitative and quantitative evaluations, we demonstrate that our proposed method produces significantly better texture quality for diverse 3D objects with a high degree of view consistency and rich appearance details, outperforming current state-of-the-art methods. Furthermore, our proposed texture generation technique can also be applied to texture editing while preserving the original identity. More experimental results are available at https://dong-huo.github.io/TexGen/

Summary

AI-Generated Summary

PDF132November 28, 2024