GAvatar: Анимируемые 3D-аватары на основе гауссовских функций с обучением неявных сеток
GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning
December 18, 2023
Авторы: Ye Yuan, Xueting Li, Yangyi Huang, Shalini De Mello, Koki Nagano, Jan Kautz, Umar Iqbal
cs.AI
Аннотация
Гауссово сплатинг (Gaussian splatting) стал мощным методом представления 3D-данных, объединяющим преимущества как явных (например, полигональных сеток), так и неявных (например, NeRF) 3D-представлений. В данной работе мы стремимся использовать гауссово сплатинг для создания реалистичных анимируемых аватаров на основе текстовых описаний, устраняя ограничения (например, гибкость и эффективность), накладываемые представлениями на основе полигональных сеток или NeRF. Однако прямое применение гауссова сплатинга не позволяет генерировать высококачественные анимируемые аватары и страдает от нестабильности обучения; оно также не способно захватывать тонкие геометрии аватаров и часто приводит к дегенерации частей тела. Для решения этих проблем мы, во-первых, предлагаем примитивное 3D-представление на основе гауссовых функций, где гауссовы распределения определяются внутри примитивов, управляемых позой, что облегчает анимацию. Во-вторых, для стабилизации и оптимизации обучения миллионов гауссовых функций мы предлагаем использовать нейронные неявные поля для предсказания атрибутов гауссовых функций (например, цветов). Наконец, для захвата тонких геометрий аватаров и извлечения детализированных сеток мы предлагаем новый подход к обучению неявных сеток на основе SDF (Signed Distance Function) для 3D-гауссовых функций, который регулирует базовые геометрии и извлекает высокодетализированные текстурированные сетки. Наш предложенный метод, GAvatar, позволяет масштабно генерировать разнообразные анимируемые аватары, используя только текстовые запросы. GAvatar значительно превосходит существующие методы как по качеству внешнего вида, так и по геометрии, а также обеспечивает чрезвычайно быстрый рендеринг (100 кадров в секунду) при разрешении 1K.
English
Gaussian splatting has emerged as a powerful 3D representation that harnesses
the advantages of both explicit (mesh) and implicit (NeRF) 3D representations.
In this paper, we seek to leverage Gaussian splatting to generate realistic
animatable avatars from textual descriptions, addressing the limitations (e.g.,
flexibility and efficiency) imposed by mesh or NeRF-based representations.
However, a naive application of Gaussian splatting cannot generate high-quality
animatable avatars and suffers from learning instability; it also cannot
capture fine avatar geometries and often leads to degenerate body parts. To
tackle these problems, we first propose a primitive-based 3D Gaussian
representation where Gaussians are defined inside pose-driven primitives to
facilitate animation. Second, to stabilize and amortize the learning of
millions of Gaussians, we propose to use neural implicit fields to predict the
Gaussian attributes (e.g., colors). Finally, to capture fine avatar geometries
and extract detailed meshes, we propose a novel SDF-based implicit mesh
learning approach for 3D Gaussians that regularizes the underlying geometries
and extracts highly detailed textured meshes. Our proposed method, GAvatar,
enables the large-scale generation of diverse animatable avatars using only
text prompts. GAvatar significantly surpasses existing methods in terms of both
appearance and geometry quality, and achieves extremely fast rendering (100
fps) at 1K resolution.