高忠実度で再照明可能なアバターの実用的なキャプチャに向けて
Towards Practical Capture of High-Fidelity Relightable Avatars
September 8, 2023
著者: Haotian Yang, Mingwu Zheng, Wanquan Feng, Haibin Huang, Yu-Kun Lai, Pengfei Wan, Zhongyuan Wang, Chongyang Ma
cs.AI
要旨
本論文では、高精細な3Dアバターのキャプチャと再構築のための新しいフレームワーク、Tracking-free Relightable Avatar(TRAvatar)を提案する。従来の手法と比較して、TRAvatarはより実用的で効率的な設定で動作する。具体的には、TRAvatarはライトステージで様々な照明条件下でキャプチャされた動画シーケンスを用いて学習され、多様なシーンでのリアルなリライティングとリアルタイムアニメーションを可能にする。さらに、TRAvatarはトラッキング不要のアバターキャプチャを可能とし、照明条件の変化下での正確な表面トラッキングの必要性を排除する。我々の貢献は二つある。第一に、照明の線形性を明示的に構築し保証する新しいネットワークアーキテクチャを提案する。単純なグループライトキャプチャで学習されたTRAvatarは、単一のフォワードパスでリアルタイムに外観を予測し、任意の環境マップ下での高品質なリライティング効果を達成する。第二に、画像シーケンスに基づいて顔の形状とリライタブルな外観をゼロから共同最適化し、トラッキングを暗黙的に学習する。このトラッキング不要のアプローチは、異なる照明条件下でのフレーム間の時間的対応関係を確立するための堅牢性をもたらす。広範な定性的および定量的な実験により、我々のフレームワークがフォトリアルなアバターアニメーションとリライティングにおいて優れた性能を達成することが実証された。
English
In this paper, we propose a novel framework, Tracking-free Relightable Avatar
(TRAvatar), for capturing and reconstructing high-fidelity 3D avatars. Compared
to previous methods, TRAvatar works in a more practical and efficient setting.
Specifically, TRAvatar is trained with dynamic image sequences captured in a
Light Stage under varying lighting conditions, enabling realistic relighting
and real-time animation for avatars in diverse scenes. Additionally, TRAvatar
allows for tracking-free avatar capture and obviates the need for accurate
surface tracking under varying illumination conditions. Our contributions are
two-fold: First, we propose a novel network architecture that explicitly builds
on and ensures the satisfaction of the linear nature of lighting. Trained on
simple group light captures, TRAvatar can predict the appearance in real-time
with a single forward pass, achieving high-quality relighting effects under
illuminations of arbitrary environment maps. Second, we jointly optimize the
facial geometry and relightable appearance from scratch based on image
sequences, where the tracking is implicitly learned. This tracking-free
approach brings robustness for establishing temporal correspondences between
frames under different lighting conditions. Extensive qualitative and
quantitative experiments demonstrate that our framework achieves superior
performance for photorealistic avatar animation and relighting.