HAAR: Modelo Generativo de Penteados Humanos 3D Baseados em Fios Condicionado por Texto
HAAR: Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles
December 18, 2023
Autores: Vanessa Sklyarova, Egor Zakharov, Otmar Hilliges, Michael J. Black, Justus Thies
cs.AI
Resumo
Apresentamos o HAAR, um novo modelo generativo baseado em fios para penteados humanos em 3D. Especificamente, com base em entradas textuais, o HAAR produz penteados 3D que podem ser utilizados como recursos de nível de produção em motores gráficos modernos. Os modelos generativos atuais baseados em IA aproveitam poderosos priores 2D para reconstruir conteúdo 3D na forma de nuvens de pontos, malhas ou funções volumétricas. No entanto, ao utilizar esses priores 2D, eles são intrinsecamente limitados a recuperar apenas as partes visíveis. Estruturas capilares altamente ocluídas não podem ser reconstruídas com esses métodos, e eles modelam apenas a "casca externa", que não está pronta para ser usada em pipelines de renderização ou simulação baseados em física. Em contraste, propomos um primeiro método generativo guiado por texto que utiliza fios de cabelo 3D como representação subjacente. Aproveitando sistemas de resposta a perguntas visuais (VQA) em 2D, anotamos automaticamente modelos capilares sintéticos gerados a partir de um pequeno conjunto de penteados criados por artistas. Isso nos permite treinar um modelo de difusão latente que opera em um espaço UV comum de penteados. Em estudos qualitativos e quantitativos, demonstramos as capacidades do modelo proposto e o comparamos com abordagens existentes de geração de penteados.
English
We present HAAR, a new strand-based generative model for 3D human hairstyles.
Specifically, based on textual inputs, HAAR produces 3D hairstyles that could
be used as production-level assets in modern computer graphics engines. Current
AI-based generative models take advantage of powerful 2D priors to reconstruct
3D content in the form of point clouds, meshes, or volumetric functions.
However, by using the 2D priors, they are intrinsically limited to only
recovering the visual parts. Highly occluded hair structures can not be
reconstructed with those methods, and they only model the ''outer shell'',
which is not ready to be used in physics-based rendering or simulation
pipelines. In contrast, we propose a first text-guided generative method that
uses 3D hair strands as an underlying representation. Leveraging 2D visual
question-answering (VQA) systems, we automatically annotate synthetic hair
models that are generated from a small set of artist-created hairstyles. This
allows us to train a latent diffusion model that operates in a common hairstyle
UV space. In qualitative and quantitative studies, we demonstrate the
capabilities of the proposed model and compare it to existing hairstyle
generation approaches.