ChatPaper.aiChatPaper

HeadStudio: Text zu animierbaren Kopf-Avataren mit 3D-Gaußscher Splatting

HeadStudio: Text to Animatable Head Avatars with 3D Gaussian Splatting

February 9, 2024
Autoren: Zhenglin Zhou, Fan Ma, Hehe Fan, Yi Yang
cs.AI

Zusammenfassung

Die Erstellung digitaler Avatare aus textuellen Eingabeaufforderungen war lange Zeit eine wünschenswerte, aber herausfordernde Aufgabe. Trotz der vielversprechenden Ergebnisse, die in jüngsten Arbeiten durch 2D-Diffusions-Priors erzielt wurden, stehen aktuelle Methoden vor Herausforderungen bei der effektiven Erzeugung hochwertiger und animierter Avatare. In diesem Artikel präsentieren wir HeadStudio, ein neuartiges Framework, das 3D-Gaussian-Splatting nutzt, um realistische und animierte Avatare aus Textaufforderungen zu generieren. Unsere Methode steuert 3D-Gaussians semantisch, um durch die intermediäre FLAME-Darstellung ein flexibles und erreichbares Erscheinungsbild zu schaffen. Konkret integrieren wir FLAME sowohl in die 3D-Darstellung als auch in die Score-Distillation: 1) FLAME-basiertes 3D-Gaussian-Splatting, bei dem 3D-Gaussian-Punkte durch die Verknüpfung jedes Punkts mit einem FLAME-Mesh gesteuert werden. 2) FLAME-basiertes Score-Distillation-Sampling, das FLAME-basierte fein abgestimmte Steuersignale nutzt, um die Score-Distillation aus der Textaufforderung zu leiten. Umfangreiche Experimente demonstrieren die Wirksamkeit von HeadStudio bei der Erzeugung animierbarer Avatare aus textuellen Eingabeaufforderungen, die visuell ansprechende Erscheinungsbilder aufweisen. Die Avatare sind in der Lage, hochwertige Echtzeitansichten (≥ 40 fps) in einer Auflösung von 1024 zu rendern. Sie können nahtlos durch reale Sprache und Videos gesteuert werden. Wir hoffen, dass HeadStudio die Erstellung digitaler Avatare vorantreiben kann und dass die vorgestellte Methode in verschiedenen Bereichen weitreichend Anwendung findet.
English
Creating digital avatars from textual prompts has long been a desirable yet challenging task. Despite the promising outcomes obtained through 2D diffusion priors in recent works, current methods face challenges in achieving high-quality and animated avatars effectively. In this paper, we present HeadStudio, a novel framework that utilizes 3D Gaussian splatting to generate realistic and animated avatars from text prompts. Our method drives 3D Gaussians semantically to create a flexible and achievable appearance through the intermediate FLAME representation. Specifically, we incorporate the FLAME into both 3D representation and score distillation: 1) FLAME-based 3D Gaussian splatting, driving 3D Gaussian points by rigging each point to a FLAME mesh. 2) FLAME-based score distillation sampling, utilizing FLAME-based fine-grained control signal to guide score distillation from the text prompt. Extensive experiments demonstrate the efficacy of HeadStudio in generating animatable avatars from textual prompts, exhibiting visually appealing appearances. The avatars are capable of rendering high-quality real-time (geq 40 fps) novel views at a resolution of 1024. They can be smoothly controlled by real-world speech and video. We hope that HeadStudio can advance digital avatar creation and that the present method can widely be applied across various domains.
PDF182December 15, 2024