TexDreamer: ゼロショット高精細3D人体テクスチャ生成に向けて
TexDreamer: Towards Zero-Shot High-Fidelity 3D Human Texture Generation
March 19, 2024
著者: Yufei Liu, Junwei Zhu, Junshu Tang, Shijie Zhang, Jiangning Zhang, Weijian Cao, Chengjie Wang, Yunsheng Wu, Dongjin Huang
cs.AI
要旨
セマンティックUVマップを用いた3D人体のテクスチャリングは、適切に展開されたUVの取得が困難であるため、依然として課題となっています。最近のテキストから3Dへの進展により、大規模なテキストから画像(T2I)モデルを使用した多視点レンダリングの監督が可能になりましたが、生成速度、テキストの一貫性、テクスチャ品質に関する問題が残っており、既存のデータセットにおけるデータ不足を引き起こしています。本論文では、TexDreamerを紹介します。これは、初のゼロショットマルチモーダル高精細3D人体テクスチャ生成モデルです。効率的なテクスチャ適応ファインチューニング戦略を活用し、大規模T2IモデルをセマンティックUV構造に適応させながら、その元の汎化能力を保持します。新たな特徴変換モジュールを活用することで、トレーニングされたモデルは、テキストまたは画像から数秒以内に高精細な3D人体テクスチャを生成することが可能です。さらに、ArTicuLated humAn textureS(ATLAS)を紹介します。これは、最大の高解像度(1024 X 1024)3D人体テクスチャデータセットであり、5万枚の高精細テクスチャとテキスト記述を含んでいます。
English
Texturing 3D humans with semantic UV maps remains a challenge due to the
difficulty of acquiring reasonably unfolded UV. Despite recent text-to-3D
advancements in supervising multi-view renderings using large text-to-image
(T2I) models, issues persist with generation speed, text consistency, and
texture quality, resulting in data scarcity among existing datasets. We present
TexDreamer, the first zero-shot multimodal high-fidelity 3D human texture
generation model. Utilizing an efficient texture adaptation finetuning
strategy, we adapt large T2I model to a semantic UV structure while preserving
its original generalization capability. Leveraging a novel feature translator
module, the trained model is capable of generating high-fidelity 3D human
textures from either text or image within seconds. Furthermore, we introduce
ArTicuLated humAn textureS (ATLAS), the largest high-resolution (1024 X 1024)
3D human texture dataset which contains 50k high-fidelity textures with text
descriptions.Summary
AI-Generated Summary