Relightify: Volti 3D Rilluminabili da una Singola Immagine tramite Modelli di Diffusione

Abstract

In seguito al notevole successo dei modelli di diffusione nella generazione di immagini, lavori recenti hanno dimostrato la loro impressionante capacità di affrontare numerosi problemi inversi in modo non supervisionato, vincolando opportunamente il processo di campionamento basato su un input di condizionamento. Motivati da ciò, in questo articolo presentiamo il primo approccio che utilizza i modelli di diffusione come prior per una ricostruzione altamente accurata del BRDF facciale 3D da una singola immagine. Iniziamo sfruttando un dataset UV di alta qualità di riflettanza facciale (albedo diffuso e speculare e normali), che rendiamo sotto diverse impostazioni di illuminazione per simulare texture RGB naturali e, successivamente, addestriamo un modello di diffusione non condizionato su coppie concatenate di texture renderizzate e componenti di riflettanza. Al momento del test, adattiamo un modello morfabile 3D all'immagine fornita e svolgiamo la faccia in una texture UV parziale. Campionando dal modello di diffusione, mantenendo intatta la parte osservata della texture, il modello ricostruisce non solo le aree auto-occluse ma anche le componenti di riflettanza sconosciute, in una singola sequenza di passaggi di denoising. A differenza dei metodi esistenti, acquisiamo direttamente la texture osservata dall'immagine di input, ottenendo così una stima della riflettanza più fedele e coerente. Attraverso una serie di confronti qualitativi e quantitativi, dimostriamo prestazioni superiori sia nel completamento della texture che nei compiti di ricostruzione della riflettanza.

English

Following the remarkable success of diffusion models on image generation, recent works have also demonstrated their impressive ability to address a number of inverse problems in an unsupervised way, by properly constraining the sampling process based on a conditioning input. Motivated by this, in this paper, we present the first approach to use diffusion models as a prior for highly accurate 3D facial BRDF reconstruction from a single image. We start by leveraging a high-quality UV dataset of facial reflectance (diffuse and specular albedo and normals), which we render under varying illumination settings to simulate natural RGB textures and, then, train an unconditional diffusion model on concatenated pairs of rendered textures and reflectance components. At test time, we fit a 3D morphable model to the given image and unwrap the face in a partial UV texture. By sampling from the diffusion model, while retaining the observed texture part intact, the model inpaints not only the self-occluded areas but also the unknown reflectance components, in a single sequence of denoising steps. In contrast to existing methods, we directly acquire the observed texture from the input image, thus, resulting in more faithful and consistent reflectance estimation. Through a series of qualitative and quantitative comparisons, we demonstrate superior performance in both texture completion as well as reflectance reconstruction tasks.

Relightify: Volti 3D Rilluminabili da una Singola Immagine tramite Modelli di Diffusione

Relightify: Relightable 3D Faces from a Single Image via Diffusion Models

Abstract

Support