ChatPaper.aiChatPaper

TexDreamer: Op Weg naar Zero-Shot Hoogwaardige 3D Menselijke Textuur Generatie

TexDreamer: Towards Zero-Shot High-Fidelity 3D Human Texture Generation

March 19, 2024
Auteurs: Yufei Liu, Junwei Zhu, Junshu Tang, Shijie Zhang, Jiangning Zhang, Weijian Cao, Chengjie Wang, Yunsheng Wu, Dongjin Huang
cs.AI

Samenvatting

Het texturiseren van 3D-menselijke modellen met semantische UV-kaarten blijft een uitdaging vanwege de moeilijkheid om redelijk uitgevouwen UV-kaarten te verkrijgen. Ondanks recente vooruitgang in tekst-naar-3D door het begeleiden van multi-view renderings met behulp van grote tekst-naar-beeld (T2I) modellen, blijven er problemen bestaan met de generatiesnelheid, tekstconsistentie en textuurkwaliteit, wat resulteert in een schaarste aan data in bestaande datasets. Wij presenteren TexDreamer, het eerste zero-shot multimodale high-fidelity 3D-menselijke textuur generatiemodel. Door gebruik te maken van een efficiënte textuuraanpassingsfinetuningstrategie, passen we een groot T2I-model aan aan een semantische UV-structuur terwijl we de oorspronkelijke generalisatiecapaciteit behouden. Met behulp van een nieuw feature translator-module is het getrainde model in staat om binnen enkele seconden high-fidelity 3D-menselijke texturen te genereren vanuit tekst of afbeelding. Daarnaast introduceren we ArTicuLated humAn textureS (ATLAS), de grootste high-resolution (1024 X 1024) 3D-menselijke textuurdataset die 50k high-fidelity texturen bevat met tekstbeschrijvingen.
English
Texturing 3D humans with semantic UV maps remains a challenge due to the difficulty of acquiring reasonably unfolded UV. Despite recent text-to-3D advancements in supervising multi-view renderings using large text-to-image (T2I) models, issues persist with generation speed, text consistency, and texture quality, resulting in data scarcity among existing datasets. We present TexDreamer, the first zero-shot multimodal high-fidelity 3D human texture generation model. Utilizing an efficient texture adaptation finetuning strategy, we adapt large T2I model to a semantic UV structure while preserving its original generalization capability. Leveraging a novel feature translator module, the trained model is capable of generating high-fidelity 3D human textures from either text or image within seconds. Furthermore, we introduce ArTicuLated humAn textureS (ATLAS), the largest high-resolution (1024 X 1024) 3D human texture dataset which contains 50k high-fidelity textures with text descriptions.
PDF71February 9, 2026