ChatPaper.aiChatPaper

Reduzindo a Lacuna: Criação de Avatar semelhante a Estúdio a partir de uma Captura de Telefone Monocular

Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture

July 28, 2024
Autores: ShahRukh Athar, Shunsuke Saito, Zhengyu Yang, Stanislav Pidhorsky, Chen Cao
cs.AI

Resumo

A criação de avatares fotorrealistas para indivíduos tradicionalmente envolve extensas sessões de captura com dispositivos de estúdio complexos e caros, como o sistema LightStage. Embora avanços recentes em representações neurais tenham possibilitado a geração de avatares 3D fotorrealistas e animáveis a partir de escaneamentos rápidos de telefone, eles têm a iluminação de captura embutida, carecem de detalhes faciais e apresentam regiões ausentes em áreas como a parte de trás das orelhas. Assim, eles ficam aquém em qualidade em comparação com avatares capturados em estúdio. Neste artigo, propomos um método que preenche essa lacuna ao gerar mapas de textura iluminados semelhantes aos de estúdio a partir de capturas curtas e monoculares de telefone. Fazemos isso ao parametrizar os mapas de textura do telefone usando o espaço W^+ de um StyleGAN2, possibilitando uma reconstrução quase perfeita. Em seguida, refinamos um StyleGAN2 amostrando no espaço parametrizado W^+ usando um conjunto muito pequeno de texturas capturadas em estúdio como sinal de treinamento adversarial. Para aprimorar ainda mais o realismo e a precisão dos detalhes faciais, super-resolvemos a saída do StyleGAN2 usando um modelo de difusão cuidadosamente projetado que é guiado pelos gradientes de imagem do mapa de textura capturado pelo telefone. Uma vez treinado, nosso método se destaca na produção de mapas de textura facial semelhantes aos de estúdio a partir de vídeos casuais monoculares de smartphone. Demonstrando suas capacidades, mostramos a geração de avatares fotorrealistas, uniformemente iluminados e completos a partir de capturas monoculares de telefone. http://shahrukhathar.github.io/2024/07/22/Bridging.html{A página do projeto pode ser encontrada aqui.}
English
Creating photorealistic avatars for individuals traditionally involves extensive capture sessions with complex and expensive studio devices like the LightStage system. While recent strides in neural representations have enabled the generation of photorealistic and animatable 3D avatars from quick phone scans, they have the capture-time lighting baked-in, lack facial details and have missing regions in areas such as the back of the ears. Thus, they lag in quality compared to studio-captured avatars. In this paper, we propose a method that bridges this gap by generating studio-like illuminated texture maps from short, monocular phone captures. We do this by parameterizing the phone texture maps using the W^+ space of a StyleGAN2, enabling near-perfect reconstruction. Then, we finetune a StyleGAN2 by sampling in the W^+ parameterized space using a very small set of studio-captured textures as an adversarial training signal. To further enhance the realism and accuracy of facial details, we super-resolve the output of the StyleGAN2 using carefully designed diffusion model that is guided by image gradients of the phone-captured texture map. Once trained, our method excels at producing studio-like facial texture maps from casual monocular smartphone videos. Demonstrating its capabilities, we showcase the generation of photorealistic, uniformly lit, complete avatars from monocular phone captures. http://shahrukhathar.github.io/2024/07/22/Bridging.html{The project page can be found here.}

Summary

AI-Generated Summary

PDF121November 28, 2024