Relightify: Volti 3D Rilluminabili da una Singola Immagine tramite Modelli di Diffusione
Relightify: Relightable 3D Faces from a Single Image via Diffusion Models
May 10, 2023
Autori: Foivos Paraperas Papantoniou, Alexandros Lattas, Stylianos Moschoglou, Stefanos Zafeiriou
cs.AI
Abstract
In seguito al notevole successo dei modelli di diffusione nella generazione di immagini, lavori recenti hanno dimostrato la loro impressionante capacità di affrontare numerosi problemi inversi in modo non supervisionato, vincolando opportunamente il processo di campionamento basato su un input di condizionamento. Motivati da ciò, in questo articolo presentiamo il primo approccio che utilizza i modelli di diffusione come prior per una ricostruzione altamente accurata del BRDF facciale 3D da una singola immagine. Iniziamo sfruttando un dataset UV di alta qualità di riflettanza facciale (albedo diffuso e speculare e normali), che rendiamo sotto diverse impostazioni di illuminazione per simulare texture RGB naturali e, successivamente, addestriamo un modello di diffusione non condizionato su coppie concatenate di texture renderizzate e componenti di riflettanza. Al momento del test, adattiamo un modello morfabile 3D all'immagine fornita e svolgiamo la faccia in una texture UV parziale. Campionando dal modello di diffusione, mantenendo intatta la parte osservata della texture, il modello ricostruisce non solo le aree auto-occluse ma anche le componenti di riflettanza sconosciute, in una singola sequenza di passaggi di denoising. A differenza dei metodi esistenti, acquisiamo direttamente la texture osservata dall'immagine di input, ottenendo così una stima della riflettanza più fedele e coerente. Attraverso una serie di confronti qualitativi e quantitativi, dimostriamo prestazioni superiori sia nel completamento della texture che nei compiti di ricostruzione della riflettanza.
English
Following the remarkable success of diffusion models on image generation,
recent works have also demonstrated their impressive ability to address a
number of inverse problems in an unsupervised way, by properly constraining the
sampling process based on a conditioning input. Motivated by this, in this
paper, we present the first approach to use diffusion models as a prior for
highly accurate 3D facial BRDF reconstruction from a single image. We start by
leveraging a high-quality UV dataset of facial reflectance (diffuse and
specular albedo and normals), which we render under varying illumination
settings to simulate natural RGB textures and, then, train an unconditional
diffusion model on concatenated pairs of rendered textures and reflectance
components. At test time, we fit a 3D morphable model to the given image and
unwrap the face in a partial UV texture. By sampling from the diffusion model,
while retaining the observed texture part intact, the model inpaints not only
the self-occluded areas but also the unknown reflectance components, in a
single sequence of denoising steps. In contrast to existing methods, we
directly acquire the observed texture from the input image, thus, resulting in
more faithful and consistent reflectance estimation. Through a series of
qualitative and quantitative comparisons, we demonstrate superior performance
in both texture completion as well as reflectance reconstruction tasks.