TexGen : Génération de textures 3D guidée par texte avec échantillonnage multi-vues et rééchantillonnage
TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling
August 2, 2024
Auteurs: Dong Huo, Zixin Guo, Xinxin Zuo, Zhihao Shi, Juwei Lu, Peng Dai, Songcen Xu, Li Cheng, Yee-Hong Yang
cs.AI
Résumé
Étant donné un maillage 3D, nous visons à synthétiser des textures 3D correspondant à des descriptions textuelles arbitraires. Les méthodes actuelles pour générer et assembler des textures à partir de vues échantillonnées entraînent souvent des coutures visibles ou un lissage excessif. Pour résoudre ces problèmes, nous présentons TexGen, un nouveau cadre d'échantillonnage et de rééchantillonnage multi-vues pour la génération de textures, exploitant un modèle de diffusion texte-à-image pré-entraîné. Pour un échantillonnage cohérent entre les vues, nous maintenons d'abord une carte de texture dans l'espace RGB, paramétrée par l'étape de débruitage et mise à jour après chaque étape d'échantillonnage du modèle de diffusion, afin de réduire progressivement les écarts entre les vues. Une stratégie d'échantillonnage multi-vues guidée par l'attention est exploitée pour diffuser les informations d'apparence à travers les vues. Pour préserver les détails de la texture, nous développons une technique de rééchantillonnage du bruit qui aide à estimer le bruit, générant des entrées pour les étapes de débruitage suivantes, en fonction de l'invite textuelle et de la carte de texture actuelle. Grâce à une évaluation qualitative et quantitative approfondie, nous démontrons que notre méthode proposée produit des textures de qualité significativement meilleure pour divers objets 3D, avec un haut degré de cohérence entre les vues et des détails d'apparence riches, surpassant les méthodes actuelles de pointe. De plus, notre technique de génération de textures peut également être appliquée à l'édition de textures tout en préservant l'identité originale. Plus de résultats expérimentaux sont disponibles à l'adresse https://dong-huo.github.io/TexGen/.
English
Given a 3D mesh, we aim to synthesize 3D textures that correspond to
arbitrary textual descriptions. Current methods for generating and assembling
textures from sampled views often result in prominent seams or excessive
smoothing. To tackle these issues, we present TexGen, a novel multi-view
sampling and resampling framework for texture generation leveraging a
pre-trained text-to-image diffusion model. For view consistent sampling, first
of all we maintain a texture map in RGB space that is parameterized by the
denoising step and updated after each sampling step of the diffusion model to
progressively reduce the view discrepancy. An attention-guided multi-view
sampling strategy is exploited to broadcast the appearance information across
views. To preserve texture details, we develop a noise resampling technique
that aids in the estimation of noise, generating inputs for subsequent
denoising steps, as directed by the text prompt and current texture map.
Through an extensive amount of qualitative and quantitative evaluations, we
demonstrate that our proposed method produces significantly better texture
quality for diverse 3D objects with a high degree of view consistency and rich
appearance details, outperforming current state-of-the-art methods.
Furthermore, our proposed texture generation technique can also be applied to
texture editing while preserving the original identity. More experimental
results are available at https://dong-huo.github.io/TexGen/Summary
AI-Generated Summary