GAvatar : Avatars animables en 3D à base de gaussiennes avec apprentissage implicite de maillage
GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning
December 18, 2023
Auteurs: Ye Yuan, Xueting Li, Yangyi Huang, Shalini De Mello, Koki Nagano, Jan Kautz, Umar Iqbal
cs.AI
Résumé
Le *Gaussian splatting* s’est imposé comme une représentation 3D puissante, combinant les avantages des représentations 3D explicites (maillages) et implicites (NeRF). Dans cet article, nous cherchons à exploiter le *Gaussian splatting* pour générer des avatars animables réalistes à partir de descriptions textuelles, en surmontant les limitations (par exemple, en termes de flexibilité et d’efficacité) imposées par les représentations basées sur des maillages ou des NeRF. Cependant, une application naïve du *Gaussian splatting* ne permet pas de générer des avatars animables de haute qualité et souffre d’instabilité lors de l’apprentissage ; elle ne parvient pas non plus à capturer les géométries fines des avatars et conduit souvent à des parties du corps dégénérées. Pour résoudre ces problèmes, nous proposons d’abord une représentation 3D de Gaussiennes basée sur des primitives, où les Gaussiennes sont définies à l’intérieur de primitives pilotées par la pose pour faciliter l’animation. Ensuite, pour stabiliser et amortir l’apprentissage de millions de Gaussiennes, nous proposons d’utiliser des champs implicites neuronaux pour prédire les attributs des Gaussiennes (par exemple, les couleurs). Enfin, pour capturer les géométries fines des avatars et extraire des maillages détaillés, nous proposons une nouvelle approche d’apprentissage de maillage implicite basée sur les SDF (*Signed Distance Fields*) pour les Gaussiennes 3D, qui régularise les géométries sous-jacentes et extrait des maillages texturés hautement détaillés. Notre méthode proposée, GAvatar, permet la génération à grande échelle d’avatars animables diversifiés en utilisant uniquement des invites textuelles. GAvatar surpasse significativement les méthodes existantes en termes de qualité d’apparence et de géométrie, et atteint un rendu extrêmement rapide (100 ips) à une résolution de 1K.
English
Gaussian splatting has emerged as a powerful 3D representation that harnesses
the advantages of both explicit (mesh) and implicit (NeRF) 3D representations.
In this paper, we seek to leverage Gaussian splatting to generate realistic
animatable avatars from textual descriptions, addressing the limitations (e.g.,
flexibility and efficiency) imposed by mesh or NeRF-based representations.
However, a naive application of Gaussian splatting cannot generate high-quality
animatable avatars and suffers from learning instability; it also cannot
capture fine avatar geometries and often leads to degenerate body parts. To
tackle these problems, we first propose a primitive-based 3D Gaussian
representation where Gaussians are defined inside pose-driven primitives to
facilitate animation. Second, to stabilize and amortize the learning of
millions of Gaussians, we propose to use neural implicit fields to predict the
Gaussian attributes (e.g., colors). Finally, to capture fine avatar geometries
and extract detailed meshes, we propose a novel SDF-based implicit mesh
learning approach for 3D Gaussians that regularizes the underlying geometries
and extracts highly detailed textured meshes. Our proposed method, GAvatar,
enables the large-scale generation of diverse animatable avatars using only
text prompts. GAvatar significantly surpasses existing methods in terms of both
appearance and geometry quality, and achieves extremely fast rendering (100
fps) at 1K resolution.