ニューラル3Dポートレートのための制御可能な動的外観
Controllable Dynamic Appearance for Neural 3D Portraits
September 20, 2023
著者: ShahRukh Athar, Zhixin Shu, Zexiang Xu, Fuji Luan, Sai Bi, Kalyan Sunkavalli, Dimitris Samaras
cs.AI
要旨
ニューラルラジアンスフィールド(NeRF)の最近の進展により、頭部のポーズ、表情、視点方向を制御しながら動的なポートレートシーンの再構築と再アニメーションが可能になりました。しかし、このようなモデルの学習では、変形領域(例えば顔)における測光的一貫性が前提とされています。つまり、頭部のポーズや表情の変化に伴って顔が変形する際に、均一な照明が維持されなければなりません。このようなビデオフレーム間の測光的一貫性は、スタジオ環境であっても維持するのが難しく、その結果、作成された再アニメーション可能なニューラルポートレートは、再アニメーション時にアーティファクトが発生しやすくなります。本研究では、実世界の撮影条件下で完全に制御可能な3Dポートレートの作成を可能にするシステム、CoDyNeRFを提案します。CoDyNeRFは、正規空間における動的外観モデルを通じて照明依存効果を近似することを学習します。このモデルは、予測された表面法線、表情、および頭部ポーズの変形に基づいて条件付けられます。表面法線の予測は、3DMM法線をガイドとして使用し、頭部の法線に対する粗い事前情報として機能します。頭部ポーズや表情の変化によって引き起こされる剛体および非剛体変形のため、直接的な法線の予測が困難な場合に有効です。スマートフォンで撮影した短いビデオのみを使用して学習を行い、明示的な頭部ポーズと表情制御を備えたポートレートシーンの自由視点合成と、リアルな照明効果を実現する本手法の有効性を実証します。プロジェクトページはこちらをご覧ください:
http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html
English
Recent advances in Neural Radiance Fields (NeRFs) have made it possible to
reconstruct and reanimate dynamic portrait scenes with control over head-pose,
facial expressions and viewing direction. However, training such models assumes
photometric consistency over the deformed region e.g. the face must be evenly
lit as it deforms with changing head-pose and facial expression. Such
photometric consistency across frames of a video is hard to maintain, even in
studio environments, thus making the created reanimatable neural portraits
prone to artifacts during reanimation. In this work, we propose CoDyNeRF, a
system that enables the creation of fully controllable 3D portraits in
real-world capture conditions. CoDyNeRF learns to approximate illumination
dependent effects via a dynamic appearance model in the canonical space that is
conditioned on predicted surface normals and the facial expressions and
head-pose deformations. The surface normals prediction is guided using 3DMM
normals that act as a coarse prior for the normals of the human head, where
direct prediction of normals is hard due to rigid and non-rigid deformations
induced by head-pose and facial expression changes. Using only a
smartphone-captured short video of a subject for training, we demonstrate the
effectiveness of our method on free view synthesis of a portrait scene with
explicit head pose and expression controls, and realistic lighting effects. The
project page can be found here:
http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html