Combler l'écart : Création d'avatars de qualité studio à partir d'une capture monoculaire sur téléphone

papers.abstract

La création d'avatars photoréalistes pour des individus nécessite traditionnellement des sessions de capture longues et complexes avec des dispositifs de studio coûteux, comme le système LightStage. Bien que les récents progrès dans les représentations neuronales aient permis la génération d'avatars 3D photoréalistes et animables à partir de scans rapides réalisés avec un téléphone, ces avatars intègrent l'éclairage au moment de la capture, manquent de détails faciaux et présentent des zones manquantes, comme à l'arrière des oreilles. Ainsi, leur qualité reste inférieure à celle des avatars capturés en studio. Dans cet article, nous proposons une méthode qui comble cet écart en générant des cartes de textures éclairées de manière similaire à un studio à partir de captures monoscopiques rapides réalisées avec un téléphone. Pour ce faire, nous paramétrisons les cartes de textures du téléphone en utilisant l'espace W^+ d'un StyleGAN2, permettant une reconstruction quasi parfaite. Ensuite, nous affinons un StyleGAN2 en échantillonnant dans l'espace paramétrisé W^+ en utilisant un très petit ensemble de textures capturées en studio comme signal d'entraînement adversarial. Pour améliorer encore le réalisme et la précision des détails faciaux, nous sur-résolvons la sortie du StyleGAN2 à l'aide d'un modèle de diffusion soigneusement conçu, guidé par les gradients d'image de la carte de texture capturée par le téléphone. Une fois entraînée, notre méthode excelle dans la production de cartes de textures faciales de qualité studio à partir de vidéos monoscopiques prises avec un smartphone. Pour démontrer ses capacités, nous présentons la génération d'avatars photoréalistes, uniformément éclairés et complets à partir de captures monoscopiques réalisées avec un téléphone. http://shahrukhathar.github.io/2024/07/22/Bridging.html{La page du projet est disponible ici.}

English

Creating photorealistic avatars for individuals traditionally involves extensive capture sessions with complex and expensive studio devices like the LightStage system. While recent strides in neural representations have enabled the generation of photorealistic and animatable 3D avatars from quick phone scans, they have the capture-time lighting baked-in, lack facial details and have missing regions in areas such as the back of the ears. Thus, they lag in quality compared to studio-captured avatars. In this paper, we propose a method that bridges this gap by generating studio-like illuminated texture maps from short, monocular phone captures. We do this by parameterizing the phone texture maps using the W^+ space of a StyleGAN2, enabling near-perfect reconstruction. Then, we finetune a StyleGAN2 by sampling in the W^+ parameterized space using a very small set of studio-captured textures as an adversarial training signal. To further enhance the realism and accuracy of facial details, we super-resolve the output of the StyleGAN2 using carefully designed diffusion model that is guided by image gradients of the phone-captured texture map. Once trained, our method excels at producing studio-like facial texture maps from casual monocular smartphone videos. Demonstrating its capabilities, we showcase the generation of photorealistic, uniformly lit, complete avatars from monocular phone captures. http://shahrukhathar.github.io/2024/07/22/Bridging.html{The project page can be found here.}

Combler l'écart : Création d'avatars de qualité studio à partir d'une capture monoculaire sur téléphone

Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture

papers.abstract

Support