GAvatar: 暗黙的メッシュ学習によるアニメーション可能な3Dガウシアンアバター
GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning
December 18, 2023
著者: Ye Yuan, Xueting Li, Yangyi Huang, Shalini De Mello, Koki Nagano, Jan Kautz, Umar Iqbal
cs.AI
要旨
ガウススプラッティングは、明示的(メッシュ)および暗黙的(NeRF)な3D表現の両方の利点を活用する強力な3D表現として登場しました。本論文では、ガウススプラッティングを活用して、テキスト記述から現実的なアニメーション可能なアバターを生成することを目指し、メッシュやNeRFベースの表現に課せられる制約(例えば、柔軟性や効率性)に対処します。しかし、ガウススプラッティングを単純に適用しても高品質なアニメーション可能なアバターは生成できず、学習の不安定性に悩まされます。また、細かいアバターの形状を捉えることができず、しばしば身体の部位が退化してしまいます。これらの問題に対処するため、まず、アニメーションを容易にするためにポーズ駆動型プリミティブ内でガウス関数を定義するプリミティブベースの3Dガウス表現を提案します。次に、数百万のガウス関数の学習を安定化し、均一化するために、ニューラル暗黙場を使用してガウス属性(例えば、色)を予測することを提案します。最後に、細かいアバターの形状を捉え、詳細なメッシュを抽出するために、3Dガウス関数に対する新しいSDFベースの暗黙的メッシュ学習アプローチを提案します。これにより、基盤となる形状を正則化し、非常に詳細なテクスチャ付きメッシュを抽出します。我々が提案する手法、GAvatarは、テキストプロンプトのみを使用して多様なアニメーション可能なアバターを大規模に生成することを可能にします。GAvatarは、外観と形状の品質の両方において既存の手法を大幅に上回り、1K解像度で極めて高速なレンダリング(100 fps)を実現します。
English
Gaussian splatting has emerged as a powerful 3D representation that harnesses
the advantages of both explicit (mesh) and implicit (NeRF) 3D representations.
In this paper, we seek to leverage Gaussian splatting to generate realistic
animatable avatars from textual descriptions, addressing the limitations (e.g.,
flexibility and efficiency) imposed by mesh or NeRF-based representations.
However, a naive application of Gaussian splatting cannot generate high-quality
animatable avatars and suffers from learning instability; it also cannot
capture fine avatar geometries and often leads to degenerate body parts. To
tackle these problems, we first propose a primitive-based 3D Gaussian
representation where Gaussians are defined inside pose-driven primitives to
facilitate animation. Second, to stabilize and amortize the learning of
millions of Gaussians, we propose to use neural implicit fields to predict the
Gaussian attributes (e.g., colors). Finally, to capture fine avatar geometries
and extract detailed meshes, we propose a novel SDF-based implicit mesh
learning approach for 3D Gaussians that regularizes the underlying geometries
and extracts highly detailed textured meshes. Our proposed method, GAvatar,
enables the large-scale generation of diverse animatable avatars using only
text prompts. GAvatar significantly surpasses existing methods in terms of both
appearance and geometry quality, and achieves extremely fast rendering (100
fps) at 1K resolution.