De kloof overbruggen: Studio-achtige avatarcreatie vanuit een monofone telefoonopname
Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture
July 28, 2024
Auteurs: ShahRukh Athar, Shunsuke Saito, Zhengyu Yang, Stanislav Pidhorsky, Chen Cao
cs.AI
Samenvatting
Het creëren van fotorealistische avatars voor individuen vereist traditioneel
uitgebreide opnamesessies met complexe en dure studioapparatuur zoals het
LightStage-systeem. Hoewel recente vooruitgang in neurale representaties het
mogelijk heeft gemaakt om fotorealistische en animeerbare 3D-avatars te
genereren uit snelle telefoonscans, hebben deze de belichting tijdens de
opname ingebakken, ontbreekt het aan gezichtsdetails en zijn er ontbrekende
gebieden, zoals aan de achterkant van de oren. Hierdoor blijven ze in kwaliteit
achter bij studio-opgenomen avatars. In dit artikel stellen we een methode voor
die deze kloof overbrugt door studio-achtige belichte textuurkaarten te
genereren uit korte, monoscopische telefoonopnames. We doen dit door de
telefoontextuurkaarten te parametriseren met behulp van de W^+-ruimte van een
StyleGAN2, wat een bijna perfecte reconstructie mogelijk maakt. Vervolgens
fine-tunen we een StyleGAN2 door te bemonsteren in de W^+-geparametriseerde
ruimte met behulp van een zeer kleine set studio-opgenomen texturen als een
adversariaal trainingssignaal. Om de realiteit en nauwkeurigheid van
gezichtsdetails verder te verbeteren, super-resolven we de uitvoer van de
StyleGAN2 met behulp van een zorgvuldig ontworpen diffusiemodel dat wordt
geleid door beeldgradiënten van de telefoon-opgenomen textuurkaart. Eenmaal
getraind, blinkt onze methode uit in het produceren van studio-achtige
gezichtstextuurkaarten uit casual monoscopische smartphonevideo's. Om de
mogelijkheden te demonstreren, laten we de generatie zien van fotorealistische,
uniform belichte, complete avatars uit monoscopische telefoonopnames.
http://shahrukhathar.github.io/2024/07/22/Bridging.html{De projectpagina
is hier te vinden.}
English
Creating photorealistic avatars for individuals traditionally involves
extensive capture sessions with complex and expensive studio devices like the
LightStage system. While recent strides in neural representations have enabled
the generation of photorealistic and animatable 3D avatars from quick phone
scans, they have the capture-time lighting baked-in, lack facial details and
have missing regions in areas such as the back of the ears. Thus, they lag in
quality compared to studio-captured avatars. In this paper, we propose a method
that bridges this gap by generating studio-like illuminated texture maps from
short, monocular phone captures. We do this by parameterizing the phone texture
maps using the W^+ space of a StyleGAN2, enabling near-perfect
reconstruction. Then, we finetune a StyleGAN2 by sampling in the W^+
parameterized space using a very small set of studio-captured textures as an
adversarial training signal. To further enhance the realism and accuracy of
facial details, we super-resolve the output of the StyleGAN2 using carefully
designed diffusion model that is guided by image gradients of the
phone-captured texture map. Once trained, our method excels at producing
studio-like facial texture maps from casual monocular smartphone videos.
Demonstrating its capabilities, we showcase the generation of photorealistic,
uniformly lit, complete avatars from monocular phone captures.
http://shahrukhathar.github.io/2024/07/22/Bridging.html{The project page
can be found here.}