ChatPaper.aiChatPaper

De kloof overbruggen: Studio-achtige avatarcreatie vanuit een monofone telefoonopname

Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture

July 28, 2024
Auteurs: ShahRukh Athar, Shunsuke Saito, Zhengyu Yang, Stanislav Pidhorsky, Chen Cao
cs.AI

Samenvatting

Het creëren van fotorealistische avatars voor individuen vereist traditioneel uitgebreide opnamesessies met complexe en dure studioapparatuur zoals het LightStage-systeem. Hoewel recente vooruitgang in neurale representaties het mogelijk heeft gemaakt om fotorealistische en animeerbare 3D-avatars te genereren uit snelle telefoonscans, hebben deze de belichting tijdens de opname ingebakken, ontbreekt het aan gezichtsdetails en zijn er ontbrekende gebieden, zoals aan de achterkant van de oren. Hierdoor blijven ze in kwaliteit achter bij studio-opgenomen avatars. In dit artikel stellen we een methode voor die deze kloof overbrugt door studio-achtige belichte textuurkaarten te genereren uit korte, monoscopische telefoonopnames. We doen dit door de telefoontextuurkaarten te parametriseren met behulp van de W^+-ruimte van een StyleGAN2, wat een bijna perfecte reconstructie mogelijk maakt. Vervolgens fine-tunen we een StyleGAN2 door te bemonsteren in de W^+-geparametriseerde ruimte met behulp van een zeer kleine set studio-opgenomen texturen als een adversariaal trainingssignaal. Om de realiteit en nauwkeurigheid van gezichtsdetails verder te verbeteren, super-resolven we de uitvoer van de StyleGAN2 met behulp van een zorgvuldig ontworpen diffusiemodel dat wordt geleid door beeldgradiënten van de telefoon-opgenomen textuurkaart. Eenmaal getraind, blinkt onze methode uit in het produceren van studio-achtige gezichtstextuurkaarten uit casual monoscopische smartphonevideo's. Om de mogelijkheden te demonstreren, laten we de generatie zien van fotorealistische, uniform belichte, complete avatars uit monoscopische telefoonopnames. http://shahrukhathar.github.io/2024/07/22/Bridging.html{De projectpagina is hier te vinden.}
English
Creating photorealistic avatars for individuals traditionally involves extensive capture sessions with complex and expensive studio devices like the LightStage system. While recent strides in neural representations have enabled the generation of photorealistic and animatable 3D avatars from quick phone scans, they have the capture-time lighting baked-in, lack facial details and have missing regions in areas such as the back of the ears. Thus, they lag in quality compared to studio-captured avatars. In this paper, we propose a method that bridges this gap by generating studio-like illuminated texture maps from short, monocular phone captures. We do this by parameterizing the phone texture maps using the W^+ space of a StyleGAN2, enabling near-perfect reconstruction. Then, we finetune a StyleGAN2 by sampling in the W^+ parameterized space using a very small set of studio-captured textures as an adversarial training signal. To further enhance the realism and accuracy of facial details, we super-resolve the output of the StyleGAN2 using carefully designed diffusion model that is guided by image gradients of the phone-captured texture map. Once trained, our method excels at producing studio-like facial texture maps from casual monocular smartphone videos. Demonstrating its capabilities, we showcase the generation of photorealistic, uniformly lit, complete avatars from monocular phone captures. http://shahrukhathar.github.io/2024/07/22/Bridging.html{The project page can be found here.}
PDF121February 8, 2026