HAAR: Текст-обусловленная генеративная модель трехмерных причесок на основе прядей
HAAR: Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles
December 18, 2023
Авторы: Vanessa Sklyarova, Egor Zakharov, Otmar Hilliges, Michael J. Black, Justus Thies
cs.AI
Аннотация
Мы представляем HAAR — новую генеративную модель для создания 3D-причесок на основе отдельных волосков. В частности, HAAR генерирует 3D-прически на основе текстовых описаний, которые могут использоваться как готовые ресурсы в современных графических движках. Современные генеративные модели на основе ИИ используют мощные 2D-представления для реконструкции 3D-контента в виде облаков точек, сеток или объемных функций. Однако, опираясь на 2D-представления, они по своей природе ограничены восстановлением только видимых частей. Сильно затененные структуры волос не могут быть реконструированы такими методами, и они моделируют только «внешнюю оболочку», что не подходит для использования в физически точных рендерингах или симуляциях. В отличие от этого, мы предлагаем первый метод генерации, управляемый текстом, который использует 3D-волоски в качестве базового представления. Используя системы визуального вопросно-ответного взаимодействия (VQA), мы автоматически аннотируем синтетические модели волос, созданные на основе небольшого набора причесок, разработанных художниками. Это позволяет нам обучить латентную диффузионную модель, работающую в общем UV-пространстве причесок. В качественных и количественных исследованиях мы демонстрируем возможности предложенной модели и сравниваем её с существующими подходами к генерации причесок.
English
We present HAAR, a new strand-based generative model for 3D human hairstyles.
Specifically, based on textual inputs, HAAR produces 3D hairstyles that could
be used as production-level assets in modern computer graphics engines. Current
AI-based generative models take advantage of powerful 2D priors to reconstruct
3D content in the form of point clouds, meshes, or volumetric functions.
However, by using the 2D priors, they are intrinsically limited to only
recovering the visual parts. Highly occluded hair structures can not be
reconstructed with those methods, and they only model the ''outer shell'',
which is not ready to be used in physics-based rendering or simulation
pipelines. In contrast, we propose a first text-guided generative method that
uses 3D hair strands as an underlying representation. Leveraging 2D visual
question-answering (VQA) systems, we automatically annotate synthetic hair
models that are generated from a small set of artist-created hairstyles. This
allows us to train a latent diffusion model that operates in a common hairstyle
UV space. In qualitative and quantitative studies, we demonstrate the
capabilities of the proposed model and compare it to existing hairstyle
generation approaches.