Relightify : Visages 3D relightables à partir d'une seule image via des modèles de diffusion
Relightify: Relightable 3D Faces from a Single Image via Diffusion Models
May 10, 2023
Auteurs: Foivos Paraperas Papantoniou, Alexandros Lattas, Stylianos Moschoglou, Stefanos Zafeiriou
cs.AI
Résumé
Suite au succès remarquable des modèles de diffusion dans la génération d'images, des travaux récents ont également démontré leur capacité impressionnante à résoudre un certain nombre de problèmes inverses de manière non supervisée, en contraignant de manière appropriée le processus d'échantillonnage sur la base d'une entrée conditionnelle. Motivés par cela, dans cet article, nous présentons la première approche utilisant les modèles de diffusion comme a priori pour une reconstruction très précise de la BRDF faciale 3D à partir d'une seule image. Nous commençons par exploiter un ensemble de données UV de haute qualité de réflectance faciale (albedo diffus et spéculaire, ainsi que les normales), que nous rendons sous différents éclairages pour simuler des textures RGB naturelles, puis nous entraînons un modèle de diffusion non conditionné sur des paires concaténées de textures rendues et de composantes de réflectance. Au moment du test, nous ajustons un modèle morphable 3D à l'image donnée et déplions le visage en une texture UV partielle. En échantillonnant à partir du modèle de diffusion tout en conservant intacte la partie observée de la texture, le modèle comble non seulement les zones auto-occluses mais aussi les composantes de réflectance inconnues, en une seule séquence d'étapes de débruitage. Contrairement aux méthodes existantes, nous acquérons directement la texture observée à partir de l'image d'entrée, ce qui permet une estimation de la réflectance plus fidèle et cohérente. À travers une série de comparaisons qualitatives et quantitatives, nous démontrons une performance supérieure à la fois dans la complétion de texture et dans les tâches de reconstruction de la réflectance.
English
Following the remarkable success of diffusion models on image generation,
recent works have also demonstrated their impressive ability to address a
number of inverse problems in an unsupervised way, by properly constraining the
sampling process based on a conditioning input. Motivated by this, in this
paper, we present the first approach to use diffusion models as a prior for
highly accurate 3D facial BRDF reconstruction from a single image. We start by
leveraging a high-quality UV dataset of facial reflectance (diffuse and
specular albedo and normals), which we render under varying illumination
settings to simulate natural RGB textures and, then, train an unconditional
diffusion model on concatenated pairs of rendered textures and reflectance
components. At test time, we fit a 3D morphable model to the given image and
unwrap the face in a partial UV texture. By sampling from the diffusion model,
while retaining the observed texture part intact, the model inpaints not only
the self-occluded areas but also the unknown reflectance components, in a
single sequence of denoising steps. In contrast to existing methods, we
directly acquire the observed texture from the input image, thus, resulting in
more faithful and consistent reflectance estimation. Through a series of
qualitative and quantitative comparisons, we demonstrate superior performance
in both texture completion as well as reflectance reconstruction tasks.