ChatPaper.aiChatPaper

HAAR: Textgesteuertes generatives Modell für 3D-Strang-basierte menschliche Frisuren

HAAR: Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles

December 18, 2023
Autoren: Vanessa Sklyarova, Egor Zakharov, Otmar Hilliges, Michael J. Black, Justus Thies
cs.AI

Zusammenfassung

Wir präsentieren HAAR, ein neues strangbasiertes generatives Modell für 3D-Frisuren. Konkret erzeugt HAAR basierend auf textuellen Eingaben 3D-Frisuren, die als produktionsreife Assets in modernen Computergrafik-Engines verwendet werden können. Aktuelle KI-basierte generative Modelle nutzen leistungsstarke 2D-Priors, um 3D-Inhalte in Form von Punktwolken, Netzen oder volumetrischen Funktionen zu rekonstruieren. Durch die Verwendung dieser 2D-Priors sind sie jedoch intrinsisch darauf beschränkt, nur die sichtbaren Teile wiederherzustellen. Stark verdeckte Haarstrukturen können mit diesen Methoden nicht rekonstruiert werden, und sie modellieren lediglich die „äußere Hülle“, die nicht für physikbasierte Rendering- oder Simulationspipelines geeignet ist. Im Gegensatz dazu schlagen wir eine erste textgesteuerte generative Methode vor, die 3D-Haarstränge als zugrunde liegende Repräsentation verwendet. Mithilfe von 2D-Visual-Question-Answering (VQA)-Systemen annotieren wir automatisch synthetische Haarmodelle, die aus einer kleinen Menge von künstlerisch erstellten Frisuren generiert werden. Dies ermöglicht es uns, ein latentes Diffusionsmodell zu trainieren, das in einem gemeinsamen Frisuren-UV-Raum operiert. In qualitativen und quantitativen Studien demonstrieren wir die Fähigkeiten des vorgeschlagenen Modells und vergleichen es mit bestehenden Ansätzen zur Frisurgenerierung.
English
We present HAAR, a new strand-based generative model for 3D human hairstyles. Specifically, based on textual inputs, HAAR produces 3D hairstyles that could be used as production-level assets in modern computer graphics engines. Current AI-based generative models take advantage of powerful 2D priors to reconstruct 3D content in the form of point clouds, meshes, or volumetric functions. However, by using the 2D priors, they are intrinsically limited to only recovering the visual parts. Highly occluded hair structures can not be reconstructed with those methods, and they only model the ''outer shell'', which is not ready to be used in physics-based rendering or simulation pipelines. In contrast, we propose a first text-guided generative method that uses 3D hair strands as an underlying representation. Leveraging 2D visual question-answering (VQA) systems, we automatically annotate synthetic hair models that are generated from a small set of artist-created hairstyles. This allows us to train a latent diffusion model that operates in a common hairstyle UV space. In qualitative and quantitative studies, we demonstrate the capabilities of the proposed model and compare it to existing hairstyle generation approaches.
PDF132December 15, 2024