Colmare il Divario: Creazione di Avatar di Qualità Studio da una Cattura Monoculare con Smartphone
Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture
July 28, 2024
Autori: ShahRukh Athar, Shunsuke Saito, Zhengyu Yang, Stanislav Pidhorsky, Chen Cao
cs.AI
Abstract
La creazione di avatar fotorealistici per individui richiede tradizionalmente sessioni di acquisizione estese con dispositivi da studio complessi e costosi come il sistema LightStage. Sebbene i recenti progressi nelle rappresentazioni neurali abbiano reso possibile la generazione di avatar 3D fotorealistici e animabili a partire da scansioni rapide effettuate con uno smartphone, questi presentano l'illuminazione al momento dell'acquisizione "cotta" all'interno, mancano di dettagli facciali e hanno regioni mancanti in aree come la parte posteriore delle orecchie. Di conseguenza, la loro qualità è inferiore rispetto a quella degli avatar acquisiti in studio. In questo articolo, proponiamo un metodo che colma questo divario generando mappe di texture illuminate in modo simile a quelle da studio a partire da brevi acquisizioni monoculari effettuate con uno smartphone. Raggiungiamo questo risultato parametrizzando le mappe di texture dello smartphone utilizzando lo spazio W^+ di uno StyleGAN2, consentendo una ricostruzione quasi perfetta. Successivamente, ottimizziamo uno StyleGAN2 campionando nello spazio parametrizzato W^+ utilizzando un insieme molto ridotto di texture acquisite in studio come segnale di addestramento avversario. Per migliorare ulteriormente il realismo e l'accuratezza dei dettagli facciali, aumentiamo la risoluzione dell'output dello StyleGAN2 utilizzando un modello di diffusione progettato con cura e guidato dai gradienti dell'immagine della mappa di texture acquisita con lo smartphone. Una volta addestrato, il nostro metodo eccelle nella produzione di mappe di texture facciali simili a quelle da studio a partire da video monoculari casuali realizzati con uno smartphone. Dimostrando le sue capacità, mostriamo la generazione di avatar fotorealistici, uniformemente illuminati e completi a partire da acquisizioni monoculari effettuate con uno smartphone.
http://shahrukhathar.github.io/2024/07/22/Bridging.html{La pagina del progetto può essere trovata qui.}
English
Creating photorealistic avatars for individuals traditionally involves
extensive capture sessions with complex and expensive studio devices like the
LightStage system. While recent strides in neural representations have enabled
the generation of photorealistic and animatable 3D avatars from quick phone
scans, they have the capture-time lighting baked-in, lack facial details and
have missing regions in areas such as the back of the ears. Thus, they lag in
quality compared to studio-captured avatars. In this paper, we propose a method
that bridges this gap by generating studio-like illuminated texture maps from
short, monocular phone captures. We do this by parameterizing the phone texture
maps using the W^+ space of a StyleGAN2, enabling near-perfect
reconstruction. Then, we finetune a StyleGAN2 by sampling in the W^+
parameterized space using a very small set of studio-captured textures as an
adversarial training signal. To further enhance the realism and accuracy of
facial details, we super-resolve the output of the StyleGAN2 using carefully
designed diffusion model that is guided by image gradients of the
phone-captured texture map. Once trained, our method excels at producing
studio-like facial texture maps from casual monocular smartphone videos.
Demonstrating its capabilities, we showcase the generation of photorealistic,
uniformly lit, complete avatars from monocular phone captures.
http://shahrukhathar.github.io/2024/07/22/Bridging.html{The project page
can be found here.}