Aparência Dinâmica Controlável para Retratos Neurais 3D
Controllable Dynamic Appearance for Neural 3D Portraits
September 20, 2023
Autores: ShahRukh Athar, Zhixin Shu, Zexiang Xu, Fuji Luan, Sai Bi, Kalyan Sunkavalli, Dimitris Samaras
cs.AI
Resumo
Os avanços recentes em Campos de Radiação Neural (NeRFs) tornaram possível reconstruir e reanimar cenas de retratos dinâmicos com controle sobre a pose da cabeça, expressões faciais e direção de visualização. No entanto, o treinamento desses modelos assume consistência fotométrica sobre a região deformada, ou seja, o rosto deve estar uniformemente iluminado à medida que se deforma com mudanças na pose da cabeça e nas expressões faciais. Essa consistência fotométrica entre os quadros de um vídeo é difícil de manter, mesmo em ambientes de estúdio, tornando os retratos neurais reanimáveis propensos a artefatos durante a reanimação. Neste trabalho, propomos o CoDyNeRF, um sistema que permite a criação de retratos 3D totalmente controláveis em condições de captura do mundo real. O CoDyNeRF aprende a aproximar efeitos dependentes da iluminação por meio de um modelo de aparência dinâmica no espaço canônico, que é condicionado pelas normais de superfície previstas e pelas deformações das expressões faciais e da pose da cabeça. A previsão das normais de superfície é guiada por normais 3DMM, que atuam como um prior grosseiro para as normais da cabeça humana, onde a previsão direta das normais é difícil devido às deformações rígidas e não rígidas induzidas por mudanças na pose da cabeça e nas expressões faciais. Utilizando apenas um vídeo curto capturado por smartphone de um sujeito para treinamento, demonstramos a eficácia do nosso método na síntese de visão livre de uma cena de retrato com controles explícitos de pose da cabeça e expressões, além de efeitos de iluminação realistas. A página do projeto pode ser encontrada aqui: http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html
English
Recent advances in Neural Radiance Fields (NeRFs) have made it possible to
reconstruct and reanimate dynamic portrait scenes with control over head-pose,
facial expressions and viewing direction. However, training such models assumes
photometric consistency over the deformed region e.g. the face must be evenly
lit as it deforms with changing head-pose and facial expression. Such
photometric consistency across frames of a video is hard to maintain, even in
studio environments, thus making the created reanimatable neural portraits
prone to artifacts during reanimation. In this work, we propose CoDyNeRF, a
system that enables the creation of fully controllable 3D portraits in
real-world capture conditions. CoDyNeRF learns to approximate illumination
dependent effects via a dynamic appearance model in the canonical space that is
conditioned on predicted surface normals and the facial expressions and
head-pose deformations. The surface normals prediction is guided using 3DMM
normals that act as a coarse prior for the normals of the human head, where
direct prediction of normals is hard due to rigid and non-rigid deformations
induced by head-pose and facial expression changes. Using only a
smartphone-captured short video of a subject for training, we demonstrate the
effectiveness of our method on free view synthesis of a portrait scene with
explicit head pose and expression controls, and realistic lighting effects. The
project page can be found here:
http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html