ChatPaper.aiChatPaper

HeadStudio: Testo ad Avatar Animabili di Testa con 3D Gaussian Splatting

HeadStudio: Text to Animatable Head Avatars with 3D Gaussian Splatting

February 9, 2024
Autori: Zhenglin Zhou, Fan Ma, Hehe Fan, Yi Yang
cs.AI

Abstract

La creazione di avatar digitali a partire da prompt testuali è da tempo un obiettivo desiderabile ma impegnativo. Nonostante i risultati promettenti ottenuti attraverso i prior di diffusione 2D in lavori recenti, i metodi attuali incontrano difficoltà nel raggiungere efficacemente avatar di alta qualità e animati. In questo articolo, presentiamo HeadStudio, un nuovo framework che utilizza lo splatting di Gaussiane 3D per generare avatar realistici e animati da prompt testuali. Il nostro metodo guida semanticamente le Gaussiane 3D per creare un aspetto flessibile e raggiungibile attraverso la rappresentazione intermedia FLAME. Nello specifico, integriamo FLAME sia nella rappresentazione 3D che nella distillazione del punteggio: 1) Splatting di Gaussiane 3D basato su FLAME, guidando i punti delle Gaussiane 3D collegando ciascun punto a una mesh FLAME. 2) Campionamento della distillazione del punteggio basato su FLAME, utilizzando un segnale di controllo fine-grain basato su FLAME per guidare la distillazione del punteggio dal prompt testuale. Esperimenti estensivi dimostrano l'efficacia di HeadStudio nella generazione di avatar animabili da prompt testuali, mostrando un aspetto visivamente accattivante. Gli avatar sono in grado di renderizzare nuove viste in tempo reale (≥ 40 fps) di alta qualità a una risoluzione di 1024. Possono essere controllati in modo fluido da discorsi e video del mondo reale. Speriamo che HeadStudio possa avanzare la creazione di avatar digitali e che il metodo presente possa essere ampiamente applicato in vari domini.
English
Creating digital avatars from textual prompts has long been a desirable yet challenging task. Despite the promising outcomes obtained through 2D diffusion priors in recent works, current methods face challenges in achieving high-quality and animated avatars effectively. In this paper, we present HeadStudio, a novel framework that utilizes 3D Gaussian splatting to generate realistic and animated avatars from text prompts. Our method drives 3D Gaussians semantically to create a flexible and achievable appearance through the intermediate FLAME representation. Specifically, we incorporate the FLAME into both 3D representation and score distillation: 1) FLAME-based 3D Gaussian splatting, driving 3D Gaussian points by rigging each point to a FLAME mesh. 2) FLAME-based score distillation sampling, utilizing FLAME-based fine-grained control signal to guide score distillation from the text prompt. Extensive experiments demonstrate the efficacy of HeadStudio in generating animatable avatars from textual prompts, exhibiting visually appealing appearances. The avatars are capable of rendering high-quality real-time (geq 40 fps) novel views at a resolution of 1024. They can be smoothly controlled by real-world speech and video. We hope that HeadStudio can advance digital avatar creation and that the present method can widely be applied across various domains.
PDF182December 15, 2024