TexDreamer: Rumo à Geração de Texturas 3D de Alta Fidelidade para Humanos em Cenários Zero-Shot
TexDreamer: Towards Zero-Shot High-Fidelity 3D Human Texture Generation
March 19, 2024
Autores: Yufei Liu, Junwei Zhu, Junshu Tang, Shijie Zhang, Jiangning Zhang, Weijian Cao, Chengjie Wang, Yunsheng Wu, Dongjin Huang
cs.AI
Resumo
Texturizar humanos 3D com mapas UV semânticos continua sendo um desafio devido à dificuldade de adquirir UVs razoavelmente desdobrados. Apesar dos recentes avanços em texto-para-3D na supervisão de renderizações multi-visão usando grandes modelos de texto-para-imagem (T2I), persistem problemas com a velocidade de geração, consistência textual e qualidade da textura, resultando em escassez de dados entre os conjuntos de dados existentes. Apresentamos o TexDreamer, o primeiro modelo de geração de texturas 3D de alta fidelidade para humanos em modo zero-shot multimodal. Utilizando uma estratégia eficiente de ajuste fino de adaptação de textura, adaptamos um grande modelo T2I a uma estrutura UV semântica enquanto preservamos sua capacidade de generalização original. Aproveitando um novo módulo de tradutor de características, o modelo treinado é capaz de gerar texturas 3D de alta fidelidade para humanos a partir de texto ou imagem em segundos. Além disso, introduzimos o ArTicuLated humAn textureS (ATLAS), o maior conjunto de dados de texturas 3D de alta resolução (1024 X 1024) para humanos, que contém 50 mil texturas de alta fidelidade com descrições textuais.
English
Texturing 3D humans with semantic UV maps remains a challenge due to the
difficulty of acquiring reasonably unfolded UV. Despite recent text-to-3D
advancements in supervising multi-view renderings using large text-to-image
(T2I) models, issues persist with generation speed, text consistency, and
texture quality, resulting in data scarcity among existing datasets. We present
TexDreamer, the first zero-shot multimodal high-fidelity 3D human texture
generation model. Utilizing an efficient texture adaptation finetuning
strategy, we adapt large T2I model to a semantic UV structure while preserving
its original generalization capability. Leveraging a novel feature translator
module, the trained model is capable of generating high-fidelity 3D human
textures from either text or image within seconds. Furthermore, we introduce
ArTicuLated humAn textureS (ATLAS), the largest high-resolution (1024 X 1024)
3D human texture dataset which contains 50k high-fidelity textures with text
descriptions.