HAAR: Tekst-geconditioneerd generatief model van 3D streng-gebaseerde menselijke kapsels
HAAR: Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles
December 18, 2023
Auteurs: Vanessa Sklyarova, Egor Zakharov, Otmar Hilliges, Michael J. Black, Justus Thies
cs.AI
Samenvatting
We presenteren HAAR, een nieuw streng-gebaseerd generatief model voor 3D menselijke kapsels. Specifiek produceert HAAR, gebaseerd op tekstuele invoer, 3D kapsels die kunnen worden gebruikt als productie-assets in moderne computer graphics engines. Huidige AI-gebaseerde generatieve modellen maken gebruik van krachtige 2D-priors om 3D-inhoud te reconstrueren in de vorm van puntenwolken, meshes of volumetrische functies. Door echter gebruik te maken van de 2D-priors, zijn ze intrinsiek beperkt tot het alleen reconstrueren van de visuele delen. Sterk verborgen haarstructuren kunnen niet worden gereconstrueerd met deze methoden, en ze modelleren alleen de 'buitenste schil', wat niet klaar is voor gebruik in physics-based rendering of simulatiepijplijnen. In tegenstelling stellen wij een eerste tekst-gestuurde generatieve methode voor die 3D haarstrengen gebruikt als onderliggende representatie. Door gebruik te maken van 2D visuele vraag-antwoord (VQA) systemen, annoteren we automatisch synthetische haarmodellen die zijn gegenereerd uit een kleine set door kunstenaars gemaakte kapsels. Dit stelt ons in staat om een latent diffusiemodel te trainen dat opereert in een gemeenschappelijke kapsel UV-ruimte. In kwalitatieve en kwantitatieve studies demonstreren we de mogelijkheden van het voorgestelde model en vergelijken we het met bestaande benaderingen voor kapselgeneratie.
English
We present HAAR, a new strand-based generative model for 3D human hairstyles.
Specifically, based on textual inputs, HAAR produces 3D hairstyles that could
be used as production-level assets in modern computer graphics engines. Current
AI-based generative models take advantage of powerful 2D priors to reconstruct
3D content in the form of point clouds, meshes, or volumetric functions.
However, by using the 2D priors, they are intrinsically limited to only
recovering the visual parts. Highly occluded hair structures can not be
reconstructed with those methods, and they only model the ''outer shell'',
which is not ready to be used in physics-based rendering or simulation
pipelines. In contrast, we propose a first text-guided generative method that
uses 3D hair strands as an underlying representation. Leveraging 2D visual
question-answering (VQA) systems, we automatically annotate synthetic hair
models that are generated from a small set of artist-created hairstyles. This
allows us to train a latent diffusion model that operates in a common hairstyle
UV space. In qualitative and quantitative studies, we demonstrate the
capabilities of the proposed model and compare it to existing hairstyle
generation approaches.