TexDreamer : Vers la génération de textures 3D haute fidélité pour les humains en mode zero-shot
TexDreamer: Towards Zero-Shot High-Fidelity 3D Human Texture Generation
March 19, 2024
Auteurs: Yufei Liu, Junwei Zhu, Junshu Tang, Shijie Zhang, Jiangning Zhang, Weijian Cao, Chengjie Wang, Yunsheng Wu, Dongjin Huang
cs.AI
Résumé
La texturation d'humains 3D avec des cartes UV sémantiques reste un défi en raison de la difficulté à acquérir des UV raisonnablement dépliées. Malgré les récents progrès en text-to-3D supervisant des rendus multi-vues à l'aide de grands modèles text-to-image (T2I), des problèmes persistent concernant la vitesse de génération, la cohérence textuelle et la qualité des textures, entraînant une rareté des données parmi les ensembles de données existants. Nous présentons TexDreamer, le premier modèle de génération de textures 3D humaines haute fidélité multimodal en zero-shot. En utilisant une stratégie de fine-tuning efficace pour l'adaptation des textures, nous adaptons un grand modèle T2I à une structure UV sémantique tout en préservant sa capacité de généralisation d'origine. Grâce à un module innovant de traduction de caractéristiques, le modèle entraîné est capable de générer des textures 3D humaines haute fidélité à partir de texte ou d'image en quelques secondes. Par ailleurs, nous introduisons ArTicuLated humAn textureS (ATLAS), le plus grand ensemble de données de textures 3D humaines haute résolution (1024 X 1024), contenant 50k textures haute fidélité accompagnées de descriptions textuelles.
English
Texturing 3D humans with semantic UV maps remains a challenge due to the
difficulty of acquiring reasonably unfolded UV. Despite recent text-to-3D
advancements in supervising multi-view renderings using large text-to-image
(T2I) models, issues persist with generation speed, text consistency, and
texture quality, resulting in data scarcity among existing datasets. We present
TexDreamer, the first zero-shot multimodal high-fidelity 3D human texture
generation model. Utilizing an efficient texture adaptation finetuning
strategy, we adapt large T2I model to a semantic UV structure while preserving
its original generalization capability. Leveraging a novel feature translator
module, the trained model is capable of generating high-fidelity 3D human
textures from either text or image within seconds. Furthermore, we introduce
ArTicuLated humAn textureS (ATLAS), the largest high-resolution (1024 X 1024)
3D human texture dataset which contains 50k high-fidelity textures with text
descriptions.Summary
AI-Generated Summary