HeadStudio: Tekst naar Animeerbare Hoofd Avatars met 3D Gaussische Splatting
HeadStudio: Text to Animatable Head Avatars with 3D Gaussian Splatting
February 9, 2024
Auteurs: Zhenglin Zhou, Fan Ma, Hehe Fan, Yi Yang
cs.AI
Samenvatting
Het creëren van digitale avatars op basis van tekstuele prompts is al lang een gewenste maar uitdagende taak. Ondanks de veelbelovende resultaten die zijn behaald met 2D diffusie-priors in recente werken, hebben huidige methoden moeite om hoogwaardige en geanimeerde avatars effectief te realiseren. In dit artikel presenteren we HeadStudio, een nieuw framework dat gebruikmaakt van 3D Gaussian splatting om realistische en geanimeerde avatars te genereren vanuit tekstuele prompts. Onze methode stuurt 3D Gaussians semantisch aan om een flexibele en haalbare verschijning te creëren via de tussenliggende FLAME-representatie. Specifiek integreren we FLAME in zowel de 3D-representatie als de score-distillatie: 1) FLAME-gebaseerde 3D Gaussian splatting, waarbij 3D Gaussian-punten worden aangestuurd door elk punt te koppelen aan een FLAME-mesh. 2) FLAME-gebaseerde score-distillatie sampling, waarbij gebruik wordt gemaakt van FLAME-gebaseerde fijnmazige controlesignalen om de score-distillatie vanuit de tekstprompt te begeleiden. Uitgebreide experimenten tonen de effectiviteit van HeadStudio aan in het genereren van animeerbare avatars vanuit tekstuele prompts, waarbij visueel aantrekkelijke verschijningen worden getoond. De avatars zijn in staat om hoogwaardige real-time (≥ 40 fps) nieuwe weergaven te renderen met een resolutie van 1024. Ze kunnen soepel worden bestuurd door real-world spraak en video. We hopen dat HeadStudio de creatie van digitale avatars kan bevorderen en dat de huidige methode breed kan worden toegepast in verschillende domeinen.
English
Creating digital avatars from textual prompts has long been a desirable yet
challenging task. Despite the promising outcomes obtained through 2D diffusion
priors in recent works, current methods face challenges in achieving
high-quality and animated avatars effectively. In this paper, we present
HeadStudio, a novel framework that utilizes 3D Gaussian splatting to
generate realistic and animated avatars from text prompts. Our method drives 3D
Gaussians semantically to create a flexible and achievable appearance through
the intermediate FLAME representation. Specifically, we incorporate the FLAME
into both 3D representation and score distillation: 1) FLAME-based 3D Gaussian
splatting, driving 3D Gaussian points by rigging each point to a FLAME mesh. 2)
FLAME-based score distillation sampling, utilizing FLAME-based fine-grained
control signal to guide score distillation from the text prompt. Extensive
experiments demonstrate the efficacy of HeadStudio in generating animatable
avatars from textual prompts, exhibiting visually appealing appearances. The
avatars are capable of rendering high-quality real-time (geq 40 fps) novel
views at a resolution of 1024. They can be smoothly controlled by real-world
speech and video. We hope that HeadStudio can advance digital avatar creation
and that the present method can widely be applied across various domains.