HAAR : Modèle génératif conditionné par texte de coiffures humaines 3D basées sur des mèches
HAAR: Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles
December 18, 2023
Auteurs: Vanessa Sklyarova, Egor Zakharov, Otmar Hilliges, Michael J. Black, Justus Thies
cs.AI
Résumé
Nous présentons HAAR, un nouveau modèle génératif basé sur des mèches pour les coiffures humaines en 3D. Concrètement, à partir d'entrées textuelles, HAAR produit des coiffures 3D qui peuvent être utilisées comme des ressources de niveau production dans les moteurs de graphismes informatiques modernes. Les modèles génératifs actuels basés sur l'IA exploitent des connaissances préalables 2D puissantes pour reconstruire du contenu 3D sous forme de nuages de points, de maillages ou de fonctions volumétriques. Cependant, en utilisant ces connaissances 2D, ils sont intrinsèquement limités à ne reconstruire que les parties visibles. Les structures capillaires fortement occluses ne peuvent pas être reconstruites avec ces méthodes, et elles ne modélisent que la « coque externe », qui n'est pas prête à être utilisée dans des pipelines de rendu ou de simulation basés sur la physique. En revanche, nous proposons une première méthode générative guidée par texte qui utilise des mèches de cheveux 3D comme représentation sous-jacente. En tirant parti des systèmes de question-réponse visuelle (VQA) en 2D, nous annotons automatiquement des modèles capillaires synthétiques générés à partir d'un petit ensemble de coiffures créées par des artistes. Cela nous permet d'entraîner un modèle de diffusion latente opérant dans un espace UV commun pour les coiffures. Dans des études qualitatives et quantitatives, nous démontrons les capacités du modèle proposé et le comparons aux approches existantes de génération de coiffures.
English
We present HAAR, a new strand-based generative model for 3D human hairstyles.
Specifically, based on textual inputs, HAAR produces 3D hairstyles that could
be used as production-level assets in modern computer graphics engines. Current
AI-based generative models take advantage of powerful 2D priors to reconstruct
3D content in the form of point clouds, meshes, or volumetric functions.
However, by using the 2D priors, they are intrinsically limited to only
recovering the visual parts. Highly occluded hair structures can not be
reconstructed with those methods, and they only model the ''outer shell'',
which is not ready to be used in physics-based rendering or simulation
pipelines. In contrast, we propose a first text-guided generative method that
uses 3D hair strands as an underlying representation. Leveraging 2D visual
question-answering (VQA) systems, we automatically annotate synthetic hair
models that are generated from a small set of artist-created hairstyles. This
allows us to train a latent diffusion model that operates in a common hairstyle
UV space. In qualitative and quantitative studies, we demonstrate the
capabilities of the proposed model and compare it to existing hairstyle
generation approaches.