ChatPaper.aiChatPaper

TexDreamer: Auf dem Weg zur Zero-Shot Hochwertige 3D-Menschentexturgenerierung

TexDreamer: Towards Zero-Shot High-Fidelity 3D Human Texture Generation

March 19, 2024
Autoren: Yufei Liu, Junwei Zhu, Junshu Tang, Shijie Zhang, Jiangning Zhang, Weijian Cao, Chengjie Wang, Yunsheng Wu, Dongjin Huang
cs.AI

Zusammenfassung

Die Texturierung von 3D-Menschen mit semantischen UV-Maps bleibt eine Herausforderung aufgrund der Schwierigkeit, vernünftig entfaltete UVs zu erhalten. Trotz der jüngsten Fortschritte bei der Text-zu-3D-Überwachung von Multi-View-Renderings mithilfe großer Text-zu-Bild-Modelle (T2I) bestehen weiterhin Probleme hinsichtlich der Generierungsgeschwindigkeit, der Textkonsistenz und der Texturqualität, was zu Datenknappheit bei bestehenden Datensätzen führt. Wir stellen TexDreamer vor, das erste Zero-Shot multimodale hochauflösende 3D-Menschentextur-Generierungsmodell. Durch die Nutzung einer effizienten Texturanpassungsfeinabstimmungsstrategie passen wir ein großes T2I-Modell an eine semantische UV-Struktur an, wobei wir seine ursprüngliche Verallgemeinerungsfähigkeit bewahren. Mit Hilfe eines neuartigen Feature-Übersetzermoduls ist das trainierte Modell in der Lage, hochauflösende 3D-Menschentexturen aus Text oder Bildern innerhalb von Sekunden zu generieren. Darüber hinaus führen wir ArTicuLated humAn textureS (ATLAS) ein, den größten hochauflösenden (1024 x 1024) 3D-Menschentextur-Datensatz, der 50.000 hochauflösende Texturen mit Textbeschreibungen enthält.
English
Texturing 3D humans with semantic UV maps remains a challenge due to the difficulty of acquiring reasonably unfolded UV. Despite recent text-to-3D advancements in supervising multi-view renderings using large text-to-image (T2I) models, issues persist with generation speed, text consistency, and texture quality, resulting in data scarcity among existing datasets. We present TexDreamer, the first zero-shot multimodal high-fidelity 3D human texture generation model. Utilizing an efficient texture adaptation finetuning strategy, we adapt large T2I model to a semantic UV structure while preserving its original generalization capability. Leveraging a novel feature translator module, the trained model is capable of generating high-fidelity 3D human textures from either text or image within seconds. Furthermore, we introduce ArTicuLated humAn textureS (ATLAS), the largest high-resolution (1024 X 1024) 3D human texture dataset which contains 50k high-fidelity textures with text descriptions.

Summary

AI-Generated Summary

PDF61December 15, 2024