ChatPaper.aiChatPaper

HeadStudio: Texto para Avatars de Cabeça Animáveis com 3D Gaussian Splatting

HeadStudio: Text to Animatable Head Avatars with 3D Gaussian Splatting

February 9, 2024
Autores: Zhenglin Zhou, Fan Ma, Hehe Fan, Yi Yang
cs.AI

Resumo

A criação de avatares digitais a partir de prompts textuais tem sido uma tarefa desejável, porém desafiadora. Apesar dos resultados promissores obtidos por meio de priors de difusão 2D em trabalhos recentes, os métodos atuais enfrentam dificuldades para alcançar avatares de alta qualidade e animados de forma eficaz. Neste artigo, apresentamos o HeadStudio, um framework inovador que utiliza o splatting de Gaussianas 3D para gerar avatares realistas e animados a partir de prompts textuais. Nosso método direciona semanticamente as Gaussianas 3D para criar uma aparência flexível e alcançável por meio da representação intermediária FLAME. Especificamente, incorporamos o FLAME tanto na representação 3D quanto na destilação de scores: 1) Splatting de Gaussianas 3D baseado em FLAME, direcionando pontos de Gaussianas 3D ao vincular cada ponto a uma malha FLAME. 2) Amostragem de destilação de scores baseada em FLAME, utilizando um sinal de controle refinado baseado em FLAME para guiar a destilação de scores a partir do prompt textual. Experimentos extensivos demonstram a eficácia do HeadStudio na geração de avatares animáveis a partir de prompts textuais, exibindo aparências visualmente atraentes. Os avatares são capazes de renderizar novas visões de alta qualidade em tempo real (≥ 40 fps) com uma resolução de 1024. Eles podem ser controlados de forma suave por fala e vídeo do mundo real. Esperamos que o HeadStudio avance a criação de avatares digitais e que o método apresentado possa ser amplamente aplicado em diversos domínios.
English
Creating digital avatars from textual prompts has long been a desirable yet challenging task. Despite the promising outcomes obtained through 2D diffusion priors in recent works, current methods face challenges in achieving high-quality and animated avatars effectively. In this paper, we present HeadStudio, a novel framework that utilizes 3D Gaussian splatting to generate realistic and animated avatars from text prompts. Our method drives 3D Gaussians semantically to create a flexible and achievable appearance through the intermediate FLAME representation. Specifically, we incorporate the FLAME into both 3D representation and score distillation: 1) FLAME-based 3D Gaussian splatting, driving 3D Gaussian points by rigging each point to a FLAME mesh. 2) FLAME-based score distillation sampling, utilizing FLAME-based fine-grained control signal to guide score distillation from the text prompt. Extensive experiments demonstrate the efficacy of HeadStudio in generating animatable avatars from textual prompts, exhibiting visually appealing appearances. The avatars are capable of rendering high-quality real-time (geq 40 fps) novel views at a resolution of 1024. They can be smoothly controlled by real-world speech and video. We hope that HeadStudio can advance digital avatar creation and that the present method can widely be applied across various domains.
PDF182December 15, 2024