Relightify: Переосвещаемые 3D-лица из одного изображения с использованием диффузионных моделей
Relightify: Relightable 3D Faces from a Single Image via Diffusion Models
May 10, 2023
Авторы: Foivos Paraperas Papantoniou, Alexandros Lattas, Stylianos Moschoglou, Stefanos Zafeiriou
cs.AI
Аннотация
После впечатляющего успеха диффузионных моделей в генерации изображений, недавние работы также продемонстрировали их впечатляющую способность решать ряд обратных задач в неконтролируемом режиме, путем надлежащего ограничения процесса выборки на основе входных данных с условием. Вдохновленные этим, в данной статье мы представляем первый подход к использованию диффузионных моделей в качестве априорного распределения для высокоточного восстановления BRDF 3D-лица из одного изображения. Мы начинаем с использования высококачественного UV-набора данных лицевого отражения (диффузного и зеркального альбедо и нормалей), который мы визуализируем при различных условиях освещения для моделирования естественных RGB-текстур, а затем обучаем безусловную диффузионную модель на объединенных парах визуализированных текстур и компонент отражения. На этапе тестирования мы подгоняем 3D-морфологическую модель к заданному изображению и разворачиваем лицо в частичную UV-текстуру. Путем выборки из диффузионной модели, сохраняя наблюдаемую часть текстуры неизменной, модель восстанавливает не только самозатененные области, но и неизвестные компоненты отражения в одной последовательности шагов удаления шума. В отличие от существующих методов, мы непосредственно получаем наблюдаемую текстуру из входного изображения, что приводит к более точной и согласованной оценке отражения. В ходе серии качественных и количественных сравнений мы демонстрируем превосходную производительность как в задачах завершения текстуры, так и в восстановлении отражения.
English
Following the remarkable success of diffusion models on image generation,
recent works have also demonstrated their impressive ability to address a
number of inverse problems in an unsupervised way, by properly constraining the
sampling process based on a conditioning input. Motivated by this, in this
paper, we present the first approach to use diffusion models as a prior for
highly accurate 3D facial BRDF reconstruction from a single image. We start by
leveraging a high-quality UV dataset of facial reflectance (diffuse and
specular albedo and normals), which we render under varying illumination
settings to simulate natural RGB textures and, then, train an unconditional
diffusion model on concatenated pairs of rendered textures and reflectance
components. At test time, we fit a 3D morphable model to the given image and
unwrap the face in a partial UV texture. By sampling from the diffusion model,
while retaining the observed texture part intact, the model inpaints not only
the self-occluded areas but also the unknown reflectance components, in a
single sequence of denoising steps. In contrast to existing methods, we
directly acquire the observed texture from the input image, thus, resulting in
more faithful and consistent reflectance estimation. Through a series of
qualitative and quantitative comparisons, we demonstrate superior performance
in both texture completion as well as reflectance reconstruction tasks.