ChatPaper.aiChatPaper

Brücken schlagen: Studioähnliche Avatar-Erstellung aus einer monokularen Handy-Aufnahme

Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture

July 28, 2024
Autoren: ShahRukh Athar, Shunsuke Saito, Zhengyu Yang, Stanislav Pidhorsky, Chen Cao
cs.AI

Zusammenfassung

Die Erstellung fotorealistischer Avatare für Einzelpersonen erfordert traditionell umfangreiche Erfassungssitzungen mit komplexen und teuren Studio-Geräten wie dem LightStage-System. Während jüngste Fortschritte in neuronalen Repräsentationen die Generierung fotorealistischer und animierbarer 3D-Avatare aus schnellen Handy-Scans ermöglicht haben, sind sie mit der zum Erfassungszeitpunkt eingebetteten Beleuchtung versehen, weisen fehlende Gesichtsdetails auf und weisen Lücken in Bereichen wie der Rückseite der Ohren auf. Daher hinken sie in der Qualität im Vergleich zu im Studio erfassten Avataren hinterher. In diesem Artikel schlagen wir eine Methode vor, die diese Kluft überbrückt, indem sie studioähnlich beleuchtete Texturkarten aus kurzen monokularen Handy-Erfassungen generiert. Dies geschieht durch die Parametrisierung der Handy-Texturkarten mithilfe des W^+-Raums eines StyleGAN2, was eine nahezu perfekte Rekonstruktion ermöglicht. Anschließend verfeinern wir einen StyleGAN2, indem wir im W^+-parametrisierten Raum sampeln und dabei eine sehr kleine Menge an im Studio erfassten Texturen als adversiales Trainingssignal verwenden. Um die Realitätstreue und Genauigkeit der Gesichtsdetails weiter zu verbessern, superauflösen wir die Ausgabe des StyleGAN2 mithilfe eines sorgfältig gestalteten Diffusionsmodells, das von den Bildgradienten der mit dem Handy erfassten Texturkarte geleitet wird. Nach dem Training zeichnet sich unsere Methode durch die Fähigkeit aus, studioähnliche Gesichtstexturkarten aus zufälligen monokularen Smartphone-Videos zu erzeugen. Zur Demonstration ihrer Fähigkeiten präsentieren wir die Generierung fotorealistischer, gleichmäßig ausgeleuchteter, vollständiger Avatare aus monokularen Handy-Erfassungen.
English
Creating photorealistic avatars for individuals traditionally involves extensive capture sessions with complex and expensive studio devices like the LightStage system. While recent strides in neural representations have enabled the generation of photorealistic and animatable 3D avatars from quick phone scans, they have the capture-time lighting baked-in, lack facial details and have missing regions in areas such as the back of the ears. Thus, they lag in quality compared to studio-captured avatars. In this paper, we propose a method that bridges this gap by generating studio-like illuminated texture maps from short, monocular phone captures. We do this by parameterizing the phone texture maps using the W^+ space of a StyleGAN2, enabling near-perfect reconstruction. Then, we finetune a StyleGAN2 by sampling in the W^+ parameterized space using a very small set of studio-captured textures as an adversarial training signal. To further enhance the realism and accuracy of facial details, we super-resolve the output of the StyleGAN2 using carefully designed diffusion model that is guided by image gradients of the phone-captured texture map. Once trained, our method excels at producing studio-like facial texture maps from casual monocular smartphone videos. Demonstrating its capabilities, we showcase the generation of photorealistic, uniformly lit, complete avatars from monocular phone captures. http://shahrukhathar.github.io/2024/07/22/Bridging.html{The project page can be found here.}

Summary

AI-Generated Summary

PDF121November 28, 2024