Colmare il Divario: Creazione di Avatar di Qualità Studio da una Cattura Monoculare con Smartphone

Abstract

La creazione di avatar fotorealistici per individui richiede tradizionalmente sessioni di acquisizione estese con dispositivi da studio complessi e costosi come il sistema LightStage. Sebbene i recenti progressi nelle rappresentazioni neurali abbiano reso possibile la generazione di avatar 3D fotorealistici e animabili a partire da scansioni rapide effettuate con uno smartphone, questi presentano l'illuminazione al momento dell'acquisizione "cotta" all'interno, mancano di dettagli facciali e hanno regioni mancanti in aree come la parte posteriore delle orecchie. Di conseguenza, la loro qualità è inferiore rispetto a quella degli avatar acquisiti in studio. In questo articolo, proponiamo un metodo che colma questo divario generando mappe di texture illuminate in modo simile a quelle da studio a partire da brevi acquisizioni monoculari effettuate con uno smartphone. Raggiungiamo questo risultato parametrizzando le mappe di texture dello smartphone utilizzando lo spazio W^+ di uno StyleGAN2, consentendo una ricostruzione quasi perfetta. Successivamente, ottimizziamo uno StyleGAN2 campionando nello spazio parametrizzato W^+ utilizzando un insieme molto ridotto di texture acquisite in studio come segnale di addestramento avversario. Per migliorare ulteriormente il realismo e l'accuratezza dei dettagli facciali, aumentiamo la risoluzione dell'output dello StyleGAN2 utilizzando un modello di diffusione progettato con cura e guidato dai gradienti dell'immagine della mappa di texture acquisita con lo smartphone. Una volta addestrato, il nostro metodo eccelle nella produzione di mappe di texture facciali simili a quelle da studio a partire da video monoculari casuali realizzati con uno smartphone. Dimostrando le sue capacità, mostriamo la generazione di avatar fotorealistici, uniformemente illuminati e completi a partire da acquisizioni monoculari effettuate con uno smartphone. http://shahrukhathar.github.io/2024/07/22/Bridging.html{La pagina del progetto può essere trovata qui.}

English

Creating photorealistic avatars for individuals traditionally involves extensive capture sessions with complex and expensive studio devices like the LightStage system. While recent strides in neural representations have enabled the generation of photorealistic and animatable 3D avatars from quick phone scans, they have the capture-time lighting baked-in, lack facial details and have missing regions in areas such as the back of the ears. Thus, they lag in quality compared to studio-captured avatars. In this paper, we propose a method that bridges this gap by generating studio-like illuminated texture maps from short, monocular phone captures. We do this by parameterizing the phone texture maps using the W^+ space of a StyleGAN2, enabling near-perfect reconstruction. Then, we finetune a StyleGAN2 by sampling in the W^+ parameterized space using a very small set of studio-captured textures as an adversarial training signal. To further enhance the realism and accuracy of facial details, we super-resolve the output of the StyleGAN2 using carefully designed diffusion model that is guided by image gradients of the phone-captured texture map. Once trained, our method excels at producing studio-like facial texture maps from casual monocular smartphone videos. Demonstrating its capabilities, we showcase the generation of photorealistic, uniformly lit, complete avatars from monocular phone captures. http://shahrukhathar.github.io/2024/07/22/Bridging.html{The project page can be found here.}

Colmare il Divario: Creazione di Avatar di Qualità Studio da una Cattura Monoculare con Smartphone

Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture

Abstract

Support