URHand : Mains universelles rééclairables
URHand: Universal Relightable Hands
January 10, 2024
Auteurs: Zhaoxi Chen, Gyeongsik Moon, Kaiwen Guo, Chen Cao, Stanislav Pidhorskyi, Tomas Simon, Rohan Joshi, Yuan Dong, Yichen Xu, Bernardo Pires, He Wen, Lucas Evans, Bo Peng, Julia Buffalini, Autumn Trimble, Kevyn McPhail, Melissa Schoeller, Shoou-I Yu, Javier Romero, Michael Zollhöfer, Yaser Sheikh, Ziwei Liu, Shunsuke Saito
cs.AI
Résumé
Les modèles photoréalistes de mains relightables existants nécessitent des observations spécifiques à l'identité, nombreuses et variées en termes de vues, poses et éclairages, et rencontrent des difficultés à généraliser aux éclairages naturels et aux nouvelles identités. Pour combler cette lacune, nous présentons URHand, le premier modèle universel de mains relightable qui généralise à travers les points de vue, les poses, les éclairages et les identités. Notre modèle permet une personnalisation en few-shot à l'aide d'images capturées avec un téléphone portable, et est prêt à être rendu photoréaliste sous de nouveaux éclairages. Pour simplifier le processus de personnalisation tout en conservant le photoréalisme, nous construisons un puissant prior universel relightable basé sur le relighting neuronal à partir d'images multi-vues de mains capturées dans un light stage avec des centaines d'identités. Le défi principal consiste à mettre à l'échelle l'entraînement inter-identité tout en conservant la fidélité personnalisée et les détails nets sans compromettre la généralisation sous des éclairages naturels. À cette fin, nous proposons un modèle d'éclairage linéaire spatialement variable comme rendu neuronal qui prend en entrée un ombrage inspiré de la physique. En supprimant les activations non linéaires et les biais, notre modèle d'éclairage spécifiquement conçu maintient explicitement la linéarité du transport de la lumière. Cela permet un entraînement en une seule étape à partir de données de light stage tout en généralisant au rendu en temps réel sous des éclairages continus arbitraires pour des identités diverses. De plus, nous introduisons l'apprentissage conjoint d'un modèle basé sur la physique et de notre modèle de relighting neuronal, ce qui améliore encore la fidélité et la généralisation. Des expériences approfondies montrent que notre approche obtient des performances supérieures aux méthodes existantes en termes de qualité et de généralisabilité. Nous démontrons également une personnalisation rapide d'URHand à partir d'un scan téléphonique court d'une identité inconnue.
English
Existing photorealistic relightable hand models require extensive
identity-specific observations in different views, poses, and illuminations,
and face challenges in generalizing to natural illuminations and novel
identities. To bridge this gap, we present URHand, the first universal
relightable hand model that generalizes across viewpoints, poses,
illuminations, and identities. Our model allows few-shot personalization using
images captured with a mobile phone, and is ready to be photorealistically
rendered under novel illuminations. To simplify the personalization process
while retaining photorealism, we build a powerful universal relightable prior
based on neural relighting from multi-view images of hands captured in a light
stage with hundreds of identities. The key challenge is scaling the
cross-identity training while maintaining personalized fidelity and sharp
details without compromising generalization under natural illuminations. To
this end, we propose a spatially varying linear lighting model as the neural
renderer that takes physics-inspired shading as input feature. By removing
non-linear activations and bias, our specifically designed lighting model
explicitly keeps the linearity of light transport. This enables single-stage
training from light-stage data while generalizing to real-time rendering under
arbitrary continuous illuminations across diverse identities. In addition, we
introduce the joint learning of a physically based model and our neural
relighting model, which further improves fidelity and generalization. Extensive
experiments show that our approach achieves superior performance over existing
methods in terms of both quality and generalizability. We also demonstrate
quick personalization of URHand from a short phone scan of an unseen identity.