ChatPaper.aiChatPaper

HeadStudio: Avatares de Cabeza Animables a partir de Texto con 3D Gaussian Splatting

HeadStudio: Text to Animatable Head Avatars with 3D Gaussian Splatting

February 9, 2024
Autores: Zhenglin Zhou, Fan Ma, Hehe Fan, Yi Yang
cs.AI

Resumen

La creación de avatares digitales a partir de indicaciones textuales ha sido durante mucho tiempo una tarea deseable pero desafiante. A pesar de los resultados prometedores obtenidos mediante el uso de priores de difusión 2D en trabajos recientes, los métodos actuales enfrentan dificultades para lograr avatares de alta calidad y animados de manera efectiva. En este artículo, presentamos HeadStudio, un marco novedoso que utiliza el splatting de Gaussianas 3D para generar avatares realistas y animados a partir de indicaciones textuales. Nuestro método impulsa semánticamente las Gaussianas 3D para crear una apariencia flexible y alcanzable a través de la representación intermedia FLAME. Específicamente, incorporamos FLAME tanto en la representación 3D como en la destilación de puntuaciones: 1) Splatting de Gaussianas 3D basado en FLAME, impulsando puntos de Gaussianas 3D al vincular cada punto a una malla FLAME. 2) Muestreo de destilación de puntuación basado en FLAME, utilizando una señal de control detallada basada en FLAME para guiar la destilación de puntuación a partir de la indicación textual. Experimentos extensos demuestran la eficacia de HeadStudio en la generación de avatares animables a partir de indicaciones textuales, exhibiendo apariencias visualmente atractivas. Los avatares son capaces de renderizar vistas novedosas de alta calidad en tiempo real (geq 40 fps) con una resolución de 1024. Pueden ser controlados suavemente mediante el habla y el video del mundo real. Esperamos que HeadStudio pueda avanzar en la creación de avatares digitales y que el método presente pueda aplicarse ampliamente en diversos dominios.
English
Creating digital avatars from textual prompts has long been a desirable yet challenging task. Despite the promising outcomes obtained through 2D diffusion priors in recent works, current methods face challenges in achieving high-quality and animated avatars effectively. In this paper, we present HeadStudio, a novel framework that utilizes 3D Gaussian splatting to generate realistic and animated avatars from text prompts. Our method drives 3D Gaussians semantically to create a flexible and achievable appearance through the intermediate FLAME representation. Specifically, we incorporate the FLAME into both 3D representation and score distillation: 1) FLAME-based 3D Gaussian splatting, driving 3D Gaussian points by rigging each point to a FLAME mesh. 2) FLAME-based score distillation sampling, utilizing FLAME-based fine-grained control signal to guide score distillation from the text prompt. Extensive experiments demonstrate the efficacy of HeadStudio in generating animatable avatars from textual prompts, exhibiting visually appealing appearances. The avatars are capable of rendering high-quality real-time (geq 40 fps) novel views at a resolution of 1024. They can be smoothly controlled by real-world speech and video. We hope that HeadStudio can advance digital avatar creation and that the present method can widely be applied across various domains.
PDF182December 15, 2024