Apprentissage d'avatars désentrelacés avec des représentations 3D hybrides
Learning Disentangled Avatars with Hybrid 3D Representations
September 12, 2023
Auteurs: Yao Feng, Weiyang Liu, Timo Bolkart, Jinlong Yang, Marc Pollefeys, Michael J. Black
cs.AI
Résumé
D'immenses efforts ont été déployés pour apprendre à créer des avatars humains animables et photoréalistes. Dans cette optique, les représentations 3D explicites et implicites sont largement étudiées pour une modélisation et une capture holistiques de l'être humain dans son ensemble (par exemple, le corps, les vêtements, le visage et les cheveux). Cependant, aucune de ces représentations ne constitue un choix optimal en termes d'efficacité de représentation, car les différentes parties de l'avatar humain ont des exigences de modélisation distinctes. Par exemple, les maillages ne sont généralement pas adaptés à la modélisation des vêtements et des cheveux. Motivés par cette observation, nous présentons Disentangled Avatars (DELTA), qui modélise les humains avec des représentations 3D hybrides explicites-implicites. DELTA prend en entrée une vidéo RGB monoculaire et produit un avatar humain avec des couches distinctes pour le corps et les vêtements/cheveux. Plus précisément, nous démontrons deux applications importantes pour DELTA. Pour la première, nous considérons la séparation du corps humain et des vêtements, et pour la seconde, nous séparons le visage et les cheveux. Pour ce faire, DELTA représente le corps ou le visage avec un modèle paramétrique 3D explicite basé sur un maillage, et les vêtements ou les cheveux avec un champ de radiance neural implicite. Pour rendre cela possible, nous concevons un rendu différentiable de bout en bout qui intègre les maillages dans le rendu volumétrique, permettant à DELTA d'apprendre directement à partir de vidéos monoculaires sans aucune supervision 3D. Enfin, nous montrons comment ces deux applications peuvent être facilement combinées pour modéliser des avatars complets, de sorte que les cheveux, le visage, le corps et les vêtements peuvent être entièrement séparés tout en étant rendus conjointement. Une telle séparation permet le transfert de cheveux et de vêtements à des formes corporelles arbitraires. Nous validons empiriquement l'efficacité de la séparation de DELTA en démontrant ses performances prometteuses en reconstruction séparée, essayage virtuel de vêtements et transfert de coiffure. Pour faciliter les recherches futures, nous publions également un pipeline open source pour l'étude de la modélisation hybride d'avatars humains.
English
Tremendous efforts have been made to learn animatable and photorealistic
human avatars. Towards this end, both explicit and implicit 3D representations
are heavily studied for a holistic modeling and capture of the whole human
(e.g., body, clothing, face and hair), but neither representation is an optimal
choice in terms of representation efficacy since different parts of the human
avatar have different modeling desiderata. For example, meshes are generally
not suitable for modeling clothing and hair. Motivated by this, we present
Disentangled Avatars~(DELTA), which models humans with hybrid explicit-implicit
3D representations. DELTA takes a monocular RGB video as input, and produces a
human avatar with separate body and clothing/hair layers. Specifically, we
demonstrate two important applications for DELTA. For the first one, we
consider the disentanglement of the human body and clothing and in the second,
we disentangle the face and hair. To do so, DELTA represents the body or face
with an explicit mesh-based parametric 3D model and the clothing or hair with
an implicit neural radiance field. To make this possible, we design an
end-to-end differentiable renderer that integrates meshes into volumetric
rendering, enabling DELTA to learn directly from monocular videos without any
3D supervision. Finally, we show that how these two applications can be easily
combined to model full-body avatars, such that the hair, face, body and
clothing can be fully disentangled yet jointly rendered. Such a disentanglement
enables hair and clothing transfer to arbitrary body shapes. We empirically
validate the effectiveness of DELTA's disentanglement by demonstrating its
promising performance on disentangled reconstruction, virtual clothing try-on
and hairstyle transfer. To facilitate future research, we also release an
open-sourced pipeline for the study of hybrid human avatar modeling.