Relightify: Faces 3D Relumíveis a partir de uma Única Imagem via Modelos de Difusão
Relightify: Relightable 3D Faces from a Single Image via Diffusion Models
May 10, 2023
Autores: Foivos Paraperas Papantoniou, Alexandros Lattas, Stylianos Moschoglou, Stefanos Zafeiriou
cs.AI
Resumo
Após o notável sucesso dos modelos de difusão na geração de imagens, trabalhos recentes também demonstraram sua impressionante capacidade de resolver diversos problemas inversos de maneira não supervisionada, ao restringir adequadamente o processo de amostragem com base em uma entrada condicionante. Motivados por isso, neste artigo, apresentamos a primeira abordagem que utiliza modelos de difusão como um prior para a reconstrução altamente precisa do BRDF facial 3D a partir de uma única imagem. Começamos aproveitando um conjunto de dados UV de alta qualidade de reflectância facial (albedo difuso e especular, além de normais), que renderizamos sob diferentes configurações de iluminação para simular texturas RGB naturais e, em seguida, treinamos um modelo de difusão incondicional em pares concatenados de texturas renderizadas e componentes de reflectância. No momento do teste, ajustamos um modelo morfável 3D à imagem fornecida e desenrolamos o rosto em uma textura UV parcial. Ao amostrar do modelo de difusão, mantendo intacta a parte observada da textura, o modelo preenche não apenas as áreas auto-oclusas, mas também os componentes de reflectância desconhecidos, em uma única sequência de etapas de remoção de ruído. Em contraste com os métodos existentes, adquirimos diretamente a textura observada a partir da imagem de entrada, resultando, assim, em uma estimativa de reflectância mais fiel e consistente. Por meio de uma série de comparações qualitativas e quantitativas, demonstramos um desempenho superior tanto na tarefa de completação de textura quanto na reconstrução de reflectância.
English
Following the remarkable success of diffusion models on image generation,
recent works have also demonstrated their impressive ability to address a
number of inverse problems in an unsupervised way, by properly constraining the
sampling process based on a conditioning input. Motivated by this, in this
paper, we present the first approach to use diffusion models as a prior for
highly accurate 3D facial BRDF reconstruction from a single image. We start by
leveraging a high-quality UV dataset of facial reflectance (diffuse and
specular albedo and normals), which we render under varying illumination
settings to simulate natural RGB textures and, then, train an unconditional
diffusion model on concatenated pairs of rendered textures and reflectance
components. At test time, we fit a 3D morphable model to the given image and
unwrap the face in a partial UV texture. By sampling from the diffusion model,
while retaining the observed texture part intact, the model inpaints not only
the self-occluded areas but also the unknown reflectance components, in a
single sequence of denoising steps. In contrast to existing methods, we
directly acquire the observed texture from the input image, thus, resulting in
more faithful and consistent reflectance estimation. Through a series of
qualitative and quantitative comparisons, we demonstrate superior performance
in both texture completion as well as reflectance reconstruction tasks.