ギャップを埋める:モノラルスマホ撮影からスタジオ品質のアバター生成
Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture
July 28, 2024
著者: ShahRukh Athar, Shunsuke Saito, Zhengyu Yang, Stanislav Pidhorsky, Chen Cao
cs.AI
要旨
従来、個人向けのフォトリアルなアバターを作成するには、LightStageシステムのような複雑で高価なスタジオ機器を用いた大規模なキャプチャセッションが必要でした。最近のニューラル表現の進歩により、スマートフォンでの簡単なスキャンからフォトリアルでアニメーション可能な3Dアバターを生成できるようになりましたが、キャプチャ時の照明が焼き付けられていたり、顔のディテールが不足していたり、耳の後ろなどの領域が欠落していたりするため、スタジオでキャプチャされたアバターに比べて品質が劣っていました。本論文では、短時間の単眼スマートフォンキャプチャからスタジオのような照明のテクスチャマップを生成することで、このギャップを埋める手法を提案します。これを行うために、StyleGAN2のW^+空間を使用してスマートフォンのテクスチャマップをパラメータ化し、ほぼ完璧な再構成を可能にします。次に、非常に少数のスタジオキャプチャされたテクスチャを敵対的学習信号として使用して、W^+パラメータ化空間でサンプリングすることでStyleGAN2を微調整します。顔のディテールのリアリズムと精度をさらに向上させるために、スマートフォンキャプチャされたテクスチャマップの画像勾配に基づいてガイドされた、慎重に設計された拡散モデルを使用してStyleGAN2の出力を超解像します。一度訓練されると、本手法はカジュアルな単眼スマートフォンビデオからスタジオのような顔のテクスチャマップを生成するのに優れています。その能力を示すために、単眼スマートフォンキャプチャからフォトリアルで均一に照明された完全なアバターを生成するデモンストレーションを行います。
http://shahrukhathar.github.io/2024/07/22/Bridging.html{プロジェクトページはこちらからご覧いただけます。}
English
Creating photorealistic avatars for individuals traditionally involves
extensive capture sessions with complex and expensive studio devices like the
LightStage system. While recent strides in neural representations have enabled
the generation of photorealistic and animatable 3D avatars from quick phone
scans, they have the capture-time lighting baked-in, lack facial details and
have missing regions in areas such as the back of the ears. Thus, they lag in
quality compared to studio-captured avatars. In this paper, we propose a method
that bridges this gap by generating studio-like illuminated texture maps from
short, monocular phone captures. We do this by parameterizing the phone texture
maps using the W^+ space of a StyleGAN2, enabling near-perfect
reconstruction. Then, we finetune a StyleGAN2 by sampling in the W^+
parameterized space using a very small set of studio-captured textures as an
adversarial training signal. To further enhance the realism and accuracy of
facial details, we super-resolve the output of the StyleGAN2 using carefully
designed diffusion model that is guided by image gradients of the
phone-captured texture map. Once trained, our method excels at producing
studio-like facial texture maps from casual monocular smartphone videos.
Demonstrating its capabilities, we showcase the generation of photorealistic,
uniformly lit, complete avatars from monocular phone captures.
http://shahrukhathar.github.io/2024/07/22/Bridging.html{The project page
can be found here.}Summary
AI-Generated Summary