GAvatar: Animeerbare 3D Gaussian Avatars met Impliciet Mesh Leren
GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning
December 18, 2023
Auteurs: Ye Yuan, Xueting Li, Yangyi Huang, Shalini De Mello, Koki Nagano, Jan Kautz, Umar Iqbal
cs.AI
Samenvatting
Gaussiaans splatten is naar voren gekomen als een krachtige 3D-representatie die de voordelen van zowel expliciete (mesh) als impliciete (NeRF) 3D-representaties benut. In dit artikel streven we ernaar om Gaussiaans splatten te gebruiken om realistische animeerbare avatars te genereren op basis van tekstuele beschrijvingen, waarbij we de beperkingen (bijv. flexibiliteit en efficiëntie) van mesh- of NeRF-gebaseerde representaties aanpakken. Een naïeve toepassing van Gaussiaans splatten kan echter geen hoogwaardige animeerbare avatars genereren en lijdt onder leerinstabiliteit; het kan ook fijne avatar-geometrieën niet vastleggen en leidt vaak tot gedegenereerde lichaamsdelen. Om deze problemen aan te pakken, stellen we eerst een primitief-gebaseerde 3D Gaussiaanse representatie voor waarin Gaussiaanse functies binnen pose-gestuurde primitieven worden gedefinieerd om animatie te vergemakkelijken. Ten tweede, om het leren van miljoenen Gaussiaanse functies te stabiliseren en te amortiseren, stellen we voor om neurale impliciete velden te gebruiken om de Gaussiaanse attributen (bijv. kleuren) te voorspellen. Tot slot, om fijne avatar-geometrieën vast te leggen en gedetailleerde meshes te extraheren, introduceren we een nieuwe SDF-gebaseerde impliciete mesh-leerbenadering voor 3D Gaussiaanse functies die de onderliggende geometrieën regulariseert en zeer gedetailleerde getextureerde meshes extraheert. Onze voorgestelde methode, GAvatar, maakt het mogelijk om op grote schaal diverse animeerbare avatars te genereren met alleen tekstprompts. GAvatar overtreft bestaande methoden aanzienlijk wat betreft zowel uiterlijk als geometriekwaliteit, en bereikt extreem snelle rendering (100 fps) bij een resolutie van 1K.
English
Gaussian splatting has emerged as a powerful 3D representation that harnesses
the advantages of both explicit (mesh) and implicit (NeRF) 3D representations.
In this paper, we seek to leverage Gaussian splatting to generate realistic
animatable avatars from textual descriptions, addressing the limitations (e.g.,
flexibility and efficiency) imposed by mesh or NeRF-based representations.
However, a naive application of Gaussian splatting cannot generate high-quality
animatable avatars and suffers from learning instability; it also cannot
capture fine avatar geometries and often leads to degenerate body parts. To
tackle these problems, we first propose a primitive-based 3D Gaussian
representation where Gaussians are defined inside pose-driven primitives to
facilitate animation. Second, to stabilize and amortize the learning of
millions of Gaussians, we propose to use neural implicit fields to predict the
Gaussian attributes (e.g., colors). Finally, to capture fine avatar geometries
and extract detailed meshes, we propose a novel SDF-based implicit mesh
learning approach for 3D Gaussians that regularizes the underlying geometries
and extracts highly detailed textured meshes. Our proposed method, GAvatar,
enables the large-scale generation of diverse animatable avatars using only
text prompts. GAvatar significantly surpasses existing methods in terms of both
appearance and geometry quality, and achieves extremely fast rendering (100
fps) at 1K resolution.