HeadStudio : Des textes vers des avatars de tête animables avec le splatting de gaussiennes 3D
HeadStudio: Text to Animatable Head Avatars with 3D Gaussian Splatting
February 9, 2024
Auteurs: Zhenglin Zhou, Fan Ma, Hehe Fan, Yi Yang
cs.AI
Résumé
La création d'avatars numériques à partir de prompts textuels a longtemps été une tâche souhaitable mais difficile. Malgré les résultats prometteurs obtenus grâce aux priors de diffusion 2D dans des travaux récents, les méthodes actuelles peinent à produire efficacement des avatars de haute qualité et animés. Dans cet article, nous présentons HeadStudio, un nouveau cadre qui utilise le splatting de Gaussiennes 3D pour générer des avatars réalistes et animés à partir de prompts textuels. Notre méthode pilote sémantiquement les Gaussiennes 3D pour créer une apparence flexible et réalisable grâce à la représentation intermédiaire FLAME. Plus précisément, nous intégrons FLAME à la fois dans la représentation 3D et dans la distillation de score : 1) Splatting de Gaussiennes 3D basé sur FLAME, en pilotant les points de Gaussiennes 3D en les attachant à un maillage FLAME. 2) Distillation de score basée sur FLAME, en utilisant un signal de contrôle fin basé sur FLAME pour guider la distillation de score à partir du prompt textuel. Des expériences approfondies démontrent l'efficacité de HeadStudio dans la génération d'avatars animables à partir de prompts textuels, présentant des apparences visuellement attrayantes. Les avatars sont capables de produire des vues nouvelles en temps réel de haute qualité (≥ 40 ips) à une résolution de 1024. Ils peuvent être contrôlés de manière fluide par la parole et la vidéo du monde réel. Nous espérons que HeadStudio pourra faire progresser la création d'avatars numériques et que la méthode présentée pourra être largement appliquée dans divers domaines.
English
Creating digital avatars from textual prompts has long been a desirable yet
challenging task. Despite the promising outcomes obtained through 2D diffusion
priors in recent works, current methods face challenges in achieving
high-quality and animated avatars effectively. In this paper, we present
HeadStudio, a novel framework that utilizes 3D Gaussian splatting to
generate realistic and animated avatars from text prompts. Our method drives 3D
Gaussians semantically to create a flexible and achievable appearance through
the intermediate FLAME representation. Specifically, we incorporate the FLAME
into both 3D representation and score distillation: 1) FLAME-based 3D Gaussian
splatting, driving 3D Gaussian points by rigging each point to a FLAME mesh. 2)
FLAME-based score distillation sampling, utilizing FLAME-based fine-grained
control signal to guide score distillation from the text prompt. Extensive
experiments demonstrate the efficacy of HeadStudio in generating animatable
avatars from textual prompts, exhibiting visually appealing appearances. The
avatars are capable of rendering high-quality real-time (geq 40 fps) novel
views at a resolution of 1024. They can be smoothly controlled by real-world
speech and video. We hope that HeadStudio can advance digital avatar creation
and that the present method can widely be applied across various domains.