TexDreamer: Hacia la Generación de Texturas 3D de Alta Fidelidad en Humanos con Enfoque Zero-Shot
TexDreamer: Towards Zero-Shot High-Fidelity 3D Human Texture Generation
March 19, 2024
Autores: Yufei Liu, Junwei Zhu, Junshu Tang, Shijie Zhang, Jiangning Zhang, Weijian Cao, Chengjie Wang, Yunsheng Wu, Dongjin Huang
cs.AI
Resumen
Texturizar humanos 3D con mapas UV semánticos sigue siendo un desafío debido a la dificultad de adquirir UV razonablemente desplegados. A pesar de los recientes avances en texto-a-3D que supervisan renderizaciones multi-vista utilizando grandes modelos de texto-a-imagen (T2I), persisten problemas con la velocidad de generación, la consistencia del texto y la calidad de las texturas, lo que resulta en escasez de datos entre los conjuntos de datos existentes. Presentamos TexDreamer, el primer modelo de generación de texturas 3D de alta fidelidad para humanos multimodal y de cero-shot. Utilizando una estrategia eficiente de ajuste fino de adaptación de texturas, adaptamos un gran modelo T2I a una estructura UV semántica mientras preservamos su capacidad de generalización original. Aprovechando un novedoso módulo traductor de características, el modelo entrenado es capaz de generar texturas 3D de alta fidelidad para humanos a partir de texto o imagen en cuestión de segundos. Además, presentamos ArTicuLated humAn textureS (ATLAS), el mayor conjunto de datos de texturas 3D para humanos de alta resolución (1024 X 1024), que contiene 50k texturas de alta fidelidad con descripciones de texto.
English
Texturing 3D humans with semantic UV maps remains a challenge due to the
difficulty of acquiring reasonably unfolded UV. Despite recent text-to-3D
advancements in supervising multi-view renderings using large text-to-image
(T2I) models, issues persist with generation speed, text consistency, and
texture quality, resulting in data scarcity among existing datasets. We present
TexDreamer, the first zero-shot multimodal high-fidelity 3D human texture
generation model. Utilizing an efficient texture adaptation finetuning
strategy, we adapt large T2I model to a semantic UV structure while preserving
its original generalization capability. Leveraging a novel feature translator
module, the trained model is capable of generating high-fidelity 3D human
textures from either text or image within seconds. Furthermore, we introduce
ArTicuLated humAn textureS (ATLAS), the largest high-resolution (1024 X 1024)
3D human texture dataset which contains 50k high-fidelity textures with text
descriptions.