URHand: Mani Universalmente Rilluminabili
URHand: Universal Relightable Hands
January 10, 2024
Autori: Zhaoxi Chen, Gyeongsik Moon, Kaiwen Guo, Chen Cao, Stanislav Pidhorskyi, Tomas Simon, Rohan Joshi, Yuan Dong, Yichen Xu, Bernardo Pires, He Wen, Lucas Evans, Bo Peng, Julia Buffalini, Autumn Trimble, Kevyn McPhail, Melissa Schoeller, Shoou-I Yu, Javier Romero, Michael Zollhöfer, Yaser Sheikh, Ziwei Liu, Shunsuke Saito
cs.AI
Abstract
I modelli fotorealistici esistenti per mani rilucenti richiedono osservazioni specifiche per identità in diverse visualizzazioni, pose e illuminazioni, e affrontano sfide nel generalizzare a illuminazioni naturali e nuove identità. Per colmare questa lacuna, presentiamo URHand, il primo modello universale per mani rilucenti che generalizza attraverso punti di vista, pose, illuminazioni e identità. Il nostro modello consente una personalizzazione con pochi scatti utilizzando immagini catturate con un telefono cellulare, ed è pronto per essere renderizzato fotorealisticamente sotto nuove illuminazioni. Per semplificare il processo di personalizzazione mantenendo il fotorealismo, costruiamo un potente precedente universale rilucente basato sul rilucimento neurale da immagini multi-vista di mani catturate in uno stadio luminoso con centinaia di identità. La sfida principale è scalare l'addestramento cross-identità mantenendo la fedeltà personalizzata e i dettagli nitidi senza compromettere la generalizzazione sotto illuminazioni naturali. A tal fine, proponiamo un modello di illuminazione lineare spazialmente variabile come renderer neurale che prende come caratteristica di input l'ombreggiatura ispirata alla fisica. Rimuovendo le attivazioni non lineari e il bias, il nostro modello di illuminazione specificamente progettato mantiene esplicitamente la linearità del trasporto della luce. Ciò consente un addestramento in una singola fase da dati di stadio luminoso mentre generalizza al rendering in tempo reale sotto illuminazioni continue arbitrarie attraverso diverse identità. Inoltre, introduciamo l'apprendimento congiunto di un modello fisicamente basato e del nostro modello di rilucimento neurale, che migliora ulteriormente la fedeltà e la generalizzazione. Esperimenti estensivi mostrano che il nostro approccio raggiunge prestazioni superiori rispetto ai metodi esistenti in termini di qualità e generalizzabilità. Dimostriamo anche una rapida personalizzazione di URHand da una breve scansione telefonica di un'identità non vista.
English
Existing photorealistic relightable hand models require extensive
identity-specific observations in different views, poses, and illuminations,
and face challenges in generalizing to natural illuminations and novel
identities. To bridge this gap, we present URHand, the first universal
relightable hand model that generalizes across viewpoints, poses,
illuminations, and identities. Our model allows few-shot personalization using
images captured with a mobile phone, and is ready to be photorealistically
rendered under novel illuminations. To simplify the personalization process
while retaining photorealism, we build a powerful universal relightable prior
based on neural relighting from multi-view images of hands captured in a light
stage with hundreds of identities. The key challenge is scaling the
cross-identity training while maintaining personalized fidelity and sharp
details without compromising generalization under natural illuminations. To
this end, we propose a spatially varying linear lighting model as the neural
renderer that takes physics-inspired shading as input feature. By removing
non-linear activations and bias, our specifically designed lighting model
explicitly keeps the linearity of light transport. This enables single-stage
training from light-stage data while generalizing to real-time rendering under
arbitrary continuous illuminations across diverse identities. In addition, we
introduce the joint learning of a physically based model and our neural
relighting model, which further improves fidelity and generalization. Extensive
experiments show that our approach achieves superior performance over existing
methods in terms of both quality and generalizability. We also demonstrate
quick personalization of URHand from a short phone scan of an unseen identity.