ChatPaper.aiChatPaper

HeadStudio: Создание анимируемых аватаров головы из текста с использованием 3D-гауссовского сплайтинга

HeadStudio: Text to Animatable Head Avatars with 3D Gaussian Splatting

February 9, 2024
Авторы: Zhenglin Zhou, Fan Ma, Hehe Fan, Yi Yang
cs.AI

Аннотация

Создание цифровых аватаров на основе текстовых запросов долгое время оставалось желаемой, но сложной задачей. Несмотря на многообещающие результаты, достигнутые с использованием 2D диффузионных моделей в последних работах, современные методы сталкиваются с трудностями в эффективном создании высококачественных и анимированных аватаров. В данной статье мы представляем HeadStudio — новый фреймворк, который использует 3D гауссово размытие для генерации реалистичных и анимированных аватаров из текстовых запросов. Наш метод семантически управляет 3D гауссовыми функциями, создавая гибкий и достижимый внешний вид через промежуточное представление FLAME. В частности, мы интегрируем FLAME как в 3D представление, так и в процесс дистилляции оценок: 1) 3D гауссово размытие на основе FLAME, управляющее точками 3D гауссовых функций путем привязки каждой точки к сетке FLAME. 2) Дистилляция оценок на основе FLAME, использующая детализированные управляющие сигналы FLAME для направления дистилляции оценок из текстового запроса. Многочисленные эксперименты демонстрируют эффективность HeadStudio в создании анимируемых аватаров из текстовых запросов, которые обладают визуально привлекательным внешним видом. Аватары способны рендерить высококачественные новые виды в реальном времени (≥ 40 кадров в секунду) с разрешением 1024. Они могут плавно управляться с помощью реальной речи и видео. Мы надеемся, что HeadStudio сможет продвинуть создание цифровых аватаров, и что представленный метод найдет широкое применение в различных областях.
English
Creating digital avatars from textual prompts has long been a desirable yet challenging task. Despite the promising outcomes obtained through 2D diffusion priors in recent works, current methods face challenges in achieving high-quality and animated avatars effectively. In this paper, we present HeadStudio, a novel framework that utilizes 3D Gaussian splatting to generate realistic and animated avatars from text prompts. Our method drives 3D Gaussians semantically to create a flexible and achievable appearance through the intermediate FLAME representation. Specifically, we incorporate the FLAME into both 3D representation and score distillation: 1) FLAME-based 3D Gaussian splatting, driving 3D Gaussian points by rigging each point to a FLAME mesh. 2) FLAME-based score distillation sampling, utilizing FLAME-based fine-grained control signal to guide score distillation from the text prompt. Extensive experiments demonstrate the efficacy of HeadStudio in generating animatable avatars from textual prompts, exhibiting visually appealing appearances. The avatars are capable of rendering high-quality real-time (geq 40 fps) novel views at a resolution of 1024. They can be smoothly controlled by real-world speech and video. We hope that HeadStudio can advance digital avatar creation and that the present method can widely be applied across various domains.
PDF182December 15, 2024