신경망 기반 3D 초상화를 위한 제어 가능한 동적 외관
Controllable Dynamic Appearance for Neural 3D Portraits
September 20, 2023
저자: ShahRukh Athar, Zhixin Shu, Zexiang Xu, Fuji Luan, Sai Bi, Kalyan Sunkavalli, Dimitris Samaras
cs.AI
초록
최근 Neural Radiance Fields(NeRFs)의 발전으로 머리 자세, 표정, 시점 방향을 제어하며 동적인 초상화 장면을 재구성하고 재생할 수 있게 되었습니다. 그러나 이러한 모델을 학습할 때는 변형된 영역(예: 얼굴)에서 광도 일관성이 유지되어야 한다고 가정합니다. 즉, 머리 자세와 표정이 변하면서 얼굴이 균일하게 조명되어야 합니다. 이러한 비디오 프레임 간의 광도 일관성은 스튜디오 환경에서도 유지하기 어려워, 재생 가능한 신경 초상화가 재생 중에 아티팩트가 발생하기 쉽습니다. 본 연구에서는 실제 촬영 조건에서 완전히 제어 가능한 3D 초상화를 생성할 수 있는 CoDyNeRF 시스템을 제안합니다. CoDyNeRF는 표면 법선과 표정 및 머리 자세 변형에 따라 조건화된 정규 공간에서 동적 외관 모델을 통해 조명 의존적 효과를 근사하는 방법을 학습합니다. 표면 법선 예측은 3DMM 법선을 사용하여 안내되며, 이는 머리 자세와 표정 변화로 인한 강체 및 비강체 변형으로 인해 직접 법선을 예측하기 어려운 인간 머리의 법선에 대한 대략적인 사전 정보 역할을 합니다. 스마트폰으로 촬영한 짧은 비디오만으로 학습하여, 명시적인 머리 자세와 표정 제어, 그리고 현실적인 조명 효과를 포함한 초상화 장면의 자유 시점 합성에서 우리 방법의 효과를 입증합니다. 프로젝트 페이지는 다음에서 확인할 수 있습니다: http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html
English
Recent advances in Neural Radiance Fields (NeRFs) have made it possible to
reconstruct and reanimate dynamic portrait scenes with control over head-pose,
facial expressions and viewing direction. However, training such models assumes
photometric consistency over the deformed region e.g. the face must be evenly
lit as it deforms with changing head-pose and facial expression. Such
photometric consistency across frames of a video is hard to maintain, even in
studio environments, thus making the created reanimatable neural portraits
prone to artifacts during reanimation. In this work, we propose CoDyNeRF, a
system that enables the creation of fully controllable 3D portraits in
real-world capture conditions. CoDyNeRF learns to approximate illumination
dependent effects via a dynamic appearance model in the canonical space that is
conditioned on predicted surface normals and the facial expressions and
head-pose deformations. The surface normals prediction is guided using 3DMM
normals that act as a coarse prior for the normals of the human head, where
direct prediction of normals is hard due to rigid and non-rigid deformations
induced by head-pose and facial expression changes. Using only a
smartphone-captured short video of a subject for training, we demonstrate the
effectiveness of our method on free view synthesis of a portrait scene with
explicit head pose and expression controls, and realistic lighting effects. The
project page can be found here:
http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html