HAAR: Modello Generativo Condizionato da Testo per Acconciature Umane 3D Basate su Ciocche
HAAR: Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles
December 18, 2023
Autori: Vanessa Sklyarova, Egor Zakharov, Otmar Hilliges, Michael J. Black, Justus Thies
cs.AI
Abstract
Presentiamo HAAR, un nuovo modello generativo basato su ciocche per acconciature umane 3D. Nello specifico, basandosi su input testuali, HAAR produce acconciature 3D che possono essere utilizzate come asset di livello produttivo nei moderni motori di computer grafica. Gli attuali modelli generativi basati sull'intelligenza artificiale sfruttano potenti prior 2D per ricostruire contenuti 3D sotto forma di nuvole di punti, mesh o funzioni volumetriche. Tuttavia, utilizzando i prior 2D, sono intrinsecamente limitati a ricostruire solo le parti visibili. Le strutture capillari altamente occluse non possono essere ricostruite con questi metodi, che modellano solo il "guscio esterno", non pronto per essere utilizzato in pipeline di rendering o simulazione basate sulla fisica. Al contrario, proponiamo un primo metodo generativo guidato da testo che utilizza ciocche di capelli 3D come rappresentazione sottostante. Sfruttando sistemi di risposta a domande visive (VQA) 2D, annotiamo automaticamente modelli di capelli sintetici generati da un piccolo insieme di acconciature create da artisti. Questo ci permette di addestrare un modello di diffusione latente che opera in uno spazio UV comune per le acconciature. In studi qualitativi e quantitativi, dimostriamo le capacità del modello proposto e lo confrontiamo con gli approcci esistenti per la generazione di acconciature.
English
We present HAAR, a new strand-based generative model for 3D human hairstyles.
Specifically, based on textual inputs, HAAR produces 3D hairstyles that could
be used as production-level assets in modern computer graphics engines. Current
AI-based generative models take advantage of powerful 2D priors to reconstruct
3D content in the form of point clouds, meshes, or volumetric functions.
However, by using the 2D priors, they are intrinsically limited to only
recovering the visual parts. Highly occluded hair structures can not be
reconstructed with those methods, and they only model the ''outer shell'',
which is not ready to be used in physics-based rendering or simulation
pipelines. In contrast, we propose a first text-guided generative method that
uses 3D hair strands as an underlying representation. Leveraging 2D visual
question-answering (VQA) systems, we automatically annotate synthetic hair
models that are generated from a small set of artist-created hairstyles. This
allows us to train a latent diffusion model that operates in a common hairstyle
UV space. In qualitative and quantitative studies, we demonstrate the
capabilities of the proposed model and compare it to existing hairstyle
generation approaches.