ChatPaper.aiChatPaper

TexDreamer: 제로샷 고품질 3D 인간 텍스처 생성을 향하여

TexDreamer: Towards Zero-Shot High-Fidelity 3D Human Texture Generation

March 19, 2024
저자: Yufei Liu, Junwei Zhu, Junshu Tang, Shijie Zhang, Jiangning Zhang, Weijian Cao, Chengjie Wang, Yunsheng Wu, Dongjin Huang
cs.AI

초록

의미론적 UV 맵을 사용하여 3D 인간 모델에 텍스처를 입히는 것은 합리적으로 펼쳐진 UV를 획득하기 어렵다는 점 때문에 여전히 도전적인 과제로 남아 있습니다. 최근 텍스트-이미지(T2I) 대형 모델을 활용한 다중 뷰 렌더링 감독을 통한 텍스트-3D 발전에도 불구하고, 생성 속도, 텍스트 일관성, 텍스처 품질과 관련된 문제들이 지속되고 있으며, 이는 기존 데이터셋 간의 데이터 부족 현상을 초래하고 있습니다. 우리는 TexDreamer를 소개합니다. 이는 제로샷 멀티모달 고해상도 3D 인간 텍스처 생성 모델로서, 효율적인 텍스처 적응 미세 조정 전략을 통해 대형 T2I 모델을 의미론적 UV 구조에 적응시키면서도 원래의 일반화 능력을 유지합니다. 새로운 특징 변환 모듈을 활용하여, 훈련된 모델은 텍스트 또는 이미지로부터 몇 초 내에 고해상도 3D 인간 텍스처를 생성할 수 있습니다. 또한, 우리는 ArTicuLated humAn textureS (ATLAS)를 소개합니다. 이는 50,000개의 고해상도 텍스처와 텍스트 설명을 포함한 가장 큰 고해상도(1024 X 1024) 3D 인간 텍스처 데이터셋입니다.
English
Texturing 3D humans with semantic UV maps remains a challenge due to the difficulty of acquiring reasonably unfolded UV. Despite recent text-to-3D advancements in supervising multi-view renderings using large text-to-image (T2I) models, issues persist with generation speed, text consistency, and texture quality, resulting in data scarcity among existing datasets. We present TexDreamer, the first zero-shot multimodal high-fidelity 3D human texture generation model. Utilizing an efficient texture adaptation finetuning strategy, we adapt large T2I model to a semantic UV structure while preserving its original generalization capability. Leveraging a novel feature translator module, the trained model is capable of generating high-fidelity 3D human textures from either text or image within seconds. Furthermore, we introduce ArTicuLated humAn textureS (ATLAS), the largest high-resolution (1024 X 1024) 3D human texture dataset which contains 50k high-fidelity textures with text descriptions.

Summary

AI-Generated Summary

PDF61December 15, 2024