Combler l'écart : Création d'avatars de qualité studio à partir d'une capture monoculaire sur téléphone
Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture
July 28, 2024
Auteurs: ShahRukh Athar, Shunsuke Saito, Zhengyu Yang, Stanislav Pidhorsky, Chen Cao
cs.AI
Résumé
La création d'avatars photoréalistes pour des individus nécessite traditionnellement des sessions de capture longues et complexes avec des dispositifs de studio coûteux, comme le système LightStage. Bien que les récents progrès dans les représentations neuronales aient permis la génération d'avatars 3D photoréalistes et animables à partir de scans rapides réalisés avec un téléphone, ces avatars intègrent l'éclairage au moment de la capture, manquent de détails faciaux et présentent des zones manquantes, comme à l'arrière des oreilles. Ainsi, leur qualité reste inférieure à celle des avatars capturés en studio. Dans cet article, nous proposons une méthode qui comble cet écart en générant des cartes de textures éclairées de manière similaire à un studio à partir de captures monoscopiques rapides réalisées avec un téléphone. Pour ce faire, nous paramétrisons les cartes de textures du téléphone en utilisant l'espace W^+ d'un StyleGAN2, permettant une reconstruction quasi parfaite. Ensuite, nous affinons un StyleGAN2 en échantillonnant dans l'espace paramétrisé W^+ en utilisant un très petit ensemble de textures capturées en studio comme signal d'entraînement adversarial. Pour améliorer encore le réalisme et la précision des détails faciaux, nous sur-résolvons la sortie du StyleGAN2 à l'aide d'un modèle de diffusion soigneusement conçu, guidé par les gradients d'image de la carte de texture capturée par le téléphone. Une fois entraînée, notre méthode excelle dans la production de cartes de textures faciales de qualité studio à partir de vidéos monoscopiques prises avec un smartphone. Pour démontrer ses capacités, nous présentons la génération d'avatars photoréalistes, uniformément éclairés et complets à partir de captures monoscopiques réalisées avec un téléphone.
http://shahrukhathar.github.io/2024/07/22/Bridging.html{La page du projet est disponible ici.}
English
Creating photorealistic avatars for individuals traditionally involves
extensive capture sessions with complex and expensive studio devices like the
LightStage system. While recent strides in neural representations have enabled
the generation of photorealistic and animatable 3D avatars from quick phone
scans, they have the capture-time lighting baked-in, lack facial details and
have missing regions in areas such as the back of the ears. Thus, they lag in
quality compared to studio-captured avatars. In this paper, we propose a method
that bridges this gap by generating studio-like illuminated texture maps from
short, monocular phone captures. We do this by parameterizing the phone texture
maps using the W^+ space of a StyleGAN2, enabling near-perfect
reconstruction. Then, we finetune a StyleGAN2 by sampling in the W^+
parameterized space using a very small set of studio-captured textures as an
adversarial training signal. To further enhance the realism and accuracy of
facial details, we super-resolve the output of the StyleGAN2 using carefully
designed diffusion model that is guided by image gradients of the
phone-captured texture map. Once trained, our method excels at producing
studio-like facial texture maps from casual monocular smartphone videos.
Demonstrating its capabilities, we showcase the generation of photorealistic,
uniformly lit, complete avatars from monocular phone captures.
http://shahrukhathar.github.io/2024/07/22/Bridging.html{The project page
can be found here.}Summary
AI-Generated Summary