HAAR: Modelo Generativo de Peinados Humanos 3D Basados en Hebras Condicionado por Texto
HAAR: Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles
December 18, 2023
Autores: Vanessa Sklyarova, Egor Zakharov, Otmar Hilliges, Michael J. Black, Justus Thies
cs.AI
Resumen
Presentamos HAAR, un nuevo modelo generativo basado en hebras para peinados humanos en 3D. Específicamente, a partir de entradas textuales, HAAR produce peinados 3D que podrían utilizarse como recursos de nivel de producción en motores gráficos modernos. Los modelos generativos actuales basados en IA aprovechan potentes priors 2D para reconstruir contenido 3D en forma de nubes de puntos, mallas o funciones volumétricas. Sin embargo, al utilizar estos priors 2D, están intrínsecamente limitados a recuperar únicamente las partes visibles. Las estructuras de cabello altamente ocluidas no pueden reconstruirse con estos métodos, y solo modelan la "capa exterior", que no está lista para usarse en pipelines de renderizado o simulación basados en física. En contraste, proponemos un primer método generativo guiado por texto que utiliza hebras de cabello 3D como representación subyacente. Aprovechando sistemas de respuesta visual a preguntas (VQA) en 2D, anotamos automáticamente modelos sintéticos de cabello generados a partir de un pequeño conjunto de peinados creados por artistas. Esto nos permite entrenar un modelo de difusión latente que opera en un espacio UV común de peinados. En estudios cualitativos y cuantitativos, demostramos las capacidades del modelo propuesto y lo comparamos con enfoques existentes de generación de peinados.
English
We present HAAR, a new strand-based generative model for 3D human hairstyles.
Specifically, based on textual inputs, HAAR produces 3D hairstyles that could
be used as production-level assets in modern computer graphics engines. Current
AI-based generative models take advantage of powerful 2D priors to reconstruct
3D content in the form of point clouds, meshes, or volumetric functions.
However, by using the 2D priors, they are intrinsically limited to only
recovering the visual parts. Highly occluded hair structures can not be
reconstructed with those methods, and they only model the ''outer shell'',
which is not ready to be used in physics-based rendering or simulation
pipelines. In contrast, we propose a first text-guided generative method that
uses 3D hair strands as an underlying representation. Leveraging 2D visual
question-answering (VQA) systems, we automatically annotate synthetic hair
models that are generated from a small set of artist-created hairstyles. This
allows us to train a latent diffusion model that operates in a common hairstyle
UV space. In qualitative and quantitative studies, we demonstrate the
capabilities of the proposed model and compare it to existing hairstyle
generation approaches.