URHand: 범용 재조명 가능한 손 모델
URHand: Universal Relightable Hands
January 10, 2024
저자: Zhaoxi Chen, Gyeongsik Moon, Kaiwen Guo, Chen Cao, Stanislav Pidhorskyi, Tomas Simon, Rohan Joshi, Yuan Dong, Yichen Xu, Bernardo Pires, He Wen, Lucas Evans, Bo Peng, Julia Buffalini, Autumn Trimble, Kevyn McPhail, Melissa Schoeller, Shoou-I Yu, Javier Romero, Michael Zollhöfer, Yaser Sheikh, Ziwei Liu, Shunsuke Saito
cs.AI
초록
기존의 사실적인 재조명 가능한 손 모델은 다양한 시점, 자세, 조명에서의 방대한 개인별 관찰 데이터를 필요로 하며, 자연스러운 조명과 새로운 개인에게 일반화하는 데 어려움을 겪습니다. 이러한 격차를 해소하기 위해, 우리는 시점, 자세, 조명, 그리고 개인을 아우르는 최초의 범용 재조명 가능한 손 모델인 URHand를 제안합니다. 우리의 모델은 모바일 폰으로 촬영한 이미지를 사용한 소량의 데이터로 개인화가 가능하며, 새로운 조명 하에서 사실적으로 렌더링할 수 있습니다. 개인화 과정을 단순화하면서도 사실감을 유지하기 위해, 우리는 수백 명의 개인이 참여한 라이트 스테이지에서 촬영된 다중 시점 손 이미지 기반의 강력한 범용 재조명 가능한 사전 모델을 구축했습니다. 핵심 과제는 다양한 개인에 걸친 학습을 확장하면서도 개인별 정확도와 선명한 디테일을 유지하고, 자연스러운 조명 하에서의 일반화를 저해하지 않는 것입니다. 이를 위해, 우리는 물리 기반 쉐이딩을 입력 특징으로 사용하는 공간적으로 변하는 선형 조명 모델을 신경망 렌더러로 제안합니다. 비선형 활성화 함수와 편향을 제거함으로써, 우리가 특별히 설계한 조명 모델은 빛 전달의 선형성을 명시적으로 유지합니다. 이는 라이트 스테이지 데이터로부터 단일 단계 학습을 가능하게 하면서도 다양한 개인에 걸친 임의의 연속적인 조명 하에서 실시간 렌더링으로 일반화할 수 있게 합니다. 또한, 우리는 물리 기반 모델과 우리의 신경망 재조명 모델의 결합 학습을 도입하여, 정확도와 일반화를 더욱 향상시켰습니다. 광범위한 실험을 통해 우리의 접근 방식이 기존 방법들보다 품질과 일반화 능력 면에서 우수한 성능을 달성함을 보여줍니다. 또한, 우리는 미확인 개인의 짧은 폰 스캔으로부터 URHand의 빠른 개인화를 시연합니다.
English
Existing photorealistic relightable hand models require extensive
identity-specific observations in different views, poses, and illuminations,
and face challenges in generalizing to natural illuminations and novel
identities. To bridge this gap, we present URHand, the first universal
relightable hand model that generalizes across viewpoints, poses,
illuminations, and identities. Our model allows few-shot personalization using
images captured with a mobile phone, and is ready to be photorealistically
rendered under novel illuminations. To simplify the personalization process
while retaining photorealism, we build a powerful universal relightable prior
based on neural relighting from multi-view images of hands captured in a light
stage with hundreds of identities. The key challenge is scaling the
cross-identity training while maintaining personalized fidelity and sharp
details without compromising generalization under natural illuminations. To
this end, we propose a spatially varying linear lighting model as the neural
renderer that takes physics-inspired shading as input feature. By removing
non-linear activations and bias, our specifically designed lighting model
explicitly keeps the linearity of light transport. This enables single-stage
training from light-stage data while generalizing to real-time rendering under
arbitrary continuous illuminations across diverse identities. In addition, we
introduce the joint learning of a physically based model and our neural
relighting model, which further improves fidelity and generalization. Extensive
experiments show that our approach achieves superior performance over existing
methods in terms of both quality and generalizability. We also demonstrate
quick personalization of URHand from a short phone scan of an unseen identity.