ChatPaper.aiChatPaper

HeadStudio: 3D 가우시안 스플래팅을 활용한 텍스트 기반 애니메이션 가능 헤드 아바타 생성

HeadStudio: Text to Animatable Head Avatars with 3D Gaussian Splatting

February 9, 2024
저자: Zhenglin Zhou, Fan Ma, Hehe Fan, Yi Yang
cs.AI

초록

텍스트 프롬프트로부터 디지털 아바타를 생성하는 것은 오랫동안 바람직하면서도 도전적인 과제로 여겨져 왔습니다. 최근 연구들에서 2D 디퓨전 프라이어를 통해 얻은 유망한 결과에도 불구하고, 현재의 방법들은 고품질의 애니메이션 아바타를 효과적으로 달성하는 데 어려움을 겪고 있습니다. 본 논문에서는 3D 가우시안 스플래팅을 활용하여 텍스트 프롬프트로부터 사실적이고 애니메이션 가능한 아바타를 생성하는 새로운 프레임워크인 HeadStudio를 소개합니다. 우리의 방법은 중간 FLAME 표현을 통해 유연하고 달성 가능한 외관을 생성하기 위해 3D 가우시안을 의미론적으로 구동합니다. 구체적으로, 우리는 FLAME을 3D 표현과 스코어 디스틸레이션 모두에 통합합니다: 1) FLAME 기반 3D 가우시안 스플래팅, 각 점을 FLAME 메시에 리깅하여 3D 가우시안 점을 구동합니다. 2) FLAME 기반 스코어 디스틸레이션 샘플링, 텍스트 프롬프트로부터 스코어 디스틸레이션을 안내하기 위해 FLAME 기반의 세밀한 제어 신호를 활용합니다. 광범위한 실험을 통해 HeadStudio가 텍스트 프롬프트로부터 애니메이션 가능한 아바타를 생성하는 데 효과적이며, 시각적으로 매력적인 외관을 보여줌을 입증했습니다. 이 아바타들은 1024 해상도에서 고품질의 실시간(geq 40 fps) 새로운 뷰를 렌더링할 수 있으며, 실제 음성과 비디오로 원활하게 제어될 수 있습니다. 우리는 HeadStudio가 디지털 아바타 생성의 발전에 기여하고, 현재의 방법이 다양한 도메인에 폭넓게 적용될 수 있기를 바랍니다.
English
Creating digital avatars from textual prompts has long been a desirable yet challenging task. Despite the promising outcomes obtained through 2D diffusion priors in recent works, current methods face challenges in achieving high-quality and animated avatars effectively. In this paper, we present HeadStudio, a novel framework that utilizes 3D Gaussian splatting to generate realistic and animated avatars from text prompts. Our method drives 3D Gaussians semantically to create a flexible and achievable appearance through the intermediate FLAME representation. Specifically, we incorporate the FLAME into both 3D representation and score distillation: 1) FLAME-based 3D Gaussian splatting, driving 3D Gaussian points by rigging each point to a FLAME mesh. 2) FLAME-based score distillation sampling, utilizing FLAME-based fine-grained control signal to guide score distillation from the text prompt. Extensive experiments demonstrate the efficacy of HeadStudio in generating animatable avatars from textual prompts, exhibiting visually appealing appearances. The avatars are capable of rendering high-quality real-time (geq 40 fps) novel views at a resolution of 1024. They can be smoothly controlled by real-world speech and video. We hope that HeadStudio can advance digital avatar creation and that the present method can widely be applied across various domains.
PDF182December 15, 2024