희소 시점 비디오로부터 재조명 및 애니메이션 가능한 신경 아바타
Relightable and Animatable Neural Avatar from Sparse-View Video
August 15, 2023
저자: Zhen Xu, Sida Peng, Chen Geng, Linzhan Mou, Zihan Yan, Jiaming Sun, Hujun Bao, Xiaowei Zhou
cs.AI
초록
본 논문은 미지의 조명 하에서 동적 인간의 희소 시점(또는 단안) 비디오로부터 재조명 가능하고 애니메이션 가능한 신경 아바타를 생성하는 문제를 다룬다. 스튜디오 환경과 비교하여 이 설정은 더 실용적이고 접근 가능하지만, 극도로 어려운 부적절 문제를 제기한다. 기존의 신경 인간 재구성 방법들은 변형된 부호 거리 필드(SDF)를 사용하여 희소 시점에서 애니메이션 가능한 아바타를 재구성할 수 있지만, 재조명을 위한 재질 매개변수를 복구할 수 없다. 한편, 미분 가능한 역렌더링 기반 방법들은 정적 물체의 재질 복구에 성공했지만, 동적 인간으로 확장하는 것은 변형된 SDF에서 픽셀-표면 교차 및 광선 가시성을 계산하는 데 계산 비용이 많이 들기 때문에 간단하지 않다. 이 문제를 해결하기 위해, 우리는 임의의 인간 자세에서 세계 공간 거리를 근사화하기 위한 계층적 거리 쿼리(HDQ) 알고리즘을 제안한다. 구체적으로, 우리는 파라메트릭 인간 모델을 기반으로 거친 거리를 추정하고, SDF의 국소 변형 불변성을 활용하여 세밀한 거리를 계산한다. HDQ 알고리즘을 기반으로, 우리는 구체 추적을 활용하여 표면 교차 및 광선 가시성을 효율적으로 추정한다. 이를 통해 희소 시점(또는 단안) 입력으로부터 애니메이션 가능하고 재조명 가능한 신경 아바타를 복구하는 최초의 시스템을 개발할 수 있었다. 실험 결과, 우리의 접근법은 최신 방법들과 비교하여 우수한 결과를 생성할 수 있음을 보여준다. 재현성을 위해 우리의 코드를 공개할 예정이다.
English
This paper tackles the challenge of creating relightable and animatable
neural avatars from sparse-view (or even monocular) videos of dynamic humans
under unknown illumination. Compared to studio environments, this setting is
more practical and accessible but poses an extremely challenging ill-posed
problem. Previous neural human reconstruction methods are able to reconstruct
animatable avatars from sparse views using deformed Signed Distance Fields
(SDF) but cannot recover material parameters for relighting. While
differentiable inverse rendering-based methods have succeeded in material
recovery of static objects, it is not straightforward to extend them to dynamic
humans as it is computationally intensive to compute pixel-surface intersection
and light visibility on deformed SDFs for inverse rendering. To solve this
challenge, we propose a Hierarchical Distance Query (HDQ) algorithm to
approximate the world space distances under arbitrary human poses.
Specifically, we estimate coarse distances based on a parametric human model
and compute fine distances by exploiting the local deformation invariance of
SDF. Based on the HDQ algorithm, we leverage sphere tracing to efficiently
estimate the surface intersection and light visibility. This allows us to
develop the first system to recover animatable and relightable neural avatars
from sparse view (or monocular) inputs. Experiments demonstrate that our
approach is able to produce superior results compared to state-of-the-art
methods. Our code will be released for reproducibility.