HeadSculpt: Creación de avatares 3D de cabezas con texto
HeadSculpt: Crafting 3D Head Avatars with Text
June 5, 2023
Autores: Xiao Han, Yukang Cao, Kai Han, Xiatian Zhu, Jiankang Deng, Yi-Zhe Song, Tao Xiang, Kwan-Yee K. Wong
cs.AI
Resumen
Recientemente, los métodos generativos 3D guiados por texto han logrado avances notables en la producción de texturas y geometrías de alta calidad, aprovechando la proliferación de grandes modelos de visión-lenguaje y difusión de imágenes. Sin embargo, los métodos existentes aún enfrentan dificultades para crear avatares 3D de cabezas de alta fidelidad en dos aspectos: (1) Dependen principalmente de un modelo de difusión de texto a imagen preentrenado, careciendo de la conciencia 3D y los conocimientos previos sobre cabezas necesarios. Esto los hace propensos a inconsistencias y distorsiones geométricas en los avatares generados. (2) Presentan limitaciones en la edición detallada. Esto se debe principalmente a las limitaciones heredadas de los modelos de difusión de imágenes 2D preentrenados, que se vuelven más evidentes al tratar con avatares 3D de cabezas. En este trabajo, abordamos estos desafíos introduciendo una pipeline versátil de coarse-to-fine denominada HeadSculpt para crear (es decir, generar y editar) avatares 3D de cabezas a partir de indicaciones textuales. Específicamente, primero dotamos al modelo de difusión de conciencia 3D mediante el uso de controles basados en puntos de referencia y una incrustación textual aprendida que representa la apariencia de la vista posterior de las cabezas, permitiendo generaciones de avatares 3D consistentes. Además, proponemos una novedosa estrategia de destilación de puntuación de edición consciente de la identidad para optimizar una malla texturizada con una técnica de renderizado diferenciable de alta resolución. Esto permite preservar la identidad mientras se siguen las instrucciones de edición. Demostramos la superior fidelidad y capacidades de edición de HeadSculpt a través de experimentos exhaustivos y comparaciones con métodos existentes.
English
Recently, text-guided 3D generative methods have made remarkable advancements
in producing high-quality textures and geometry, capitalizing on the
proliferation of large vision-language and image diffusion models. However,
existing methods still struggle to create high-fidelity 3D head avatars in two
aspects: (1) They rely mostly on a pre-trained text-to-image diffusion model
whilst missing the necessary 3D awareness and head priors. This makes them
prone to inconsistency and geometric distortions in the generated avatars. (2)
They fall short in fine-grained editing. This is primarily due to the inherited
limitations from the pre-trained 2D image diffusion models, which become more
pronounced when it comes to 3D head avatars. In this work, we address these
challenges by introducing a versatile coarse-to-fine pipeline dubbed HeadSculpt
for crafting (i.e., generating and editing) 3D head avatars from textual
prompts. Specifically, we first equip the diffusion model with 3D awareness by
leveraging landmark-based control and a learned textual embedding representing
the back view appearance of heads, enabling 3D-consistent head avatar
generations. We further propose a novel identity-aware editing score
distillation strategy to optimize a textured mesh with a high-resolution
differentiable rendering technique. This enables identity preservation while
following the editing instruction. We showcase HeadSculpt's superior fidelity
and editing capabilities through comprehensive experiments and comparisons with
existing methods.