AvatarBooth: 고품질 및 맞춤형 3D 인간 아바타 생성
AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation
June 16, 2023
저자: Yifei Zeng, Yuanxun Lu, Xinya Ji, Yao Yao, Hao Zhu, Xun Cao
cs.AI
초록
우리는 텍스트 프롬프트나 특정 이미지를 사용하여 고품질 3D 아바타를 생성하는 새로운 방법인 AvatarBooth를 소개합니다. 기존의 단순한 텍스트 설명에 기반한 아바타 합성만 가능했던 방법과 달리, 우리의 방법은 캐주얼하게 촬영된 얼굴이나 신체 이미지로부터 개인화된 아바타를 생성할 수 있으며, 여전히 텍스트 기반 모델 생성 및 편집을 지원합니다. 우리의 주요 기여는 인간의 얼굴과 신체를 각각 위해 별도로 미세 조정된 이중 확산 모델을 사용하여 정확한 아바타 생성 제어를 가능하게 한 것입니다. 이를 통해 얼굴 외모, 의상, 액세서리의 복잡한 세부 사항을 포착하여 매우 사실적인 아바타 생성을 가능하게 합니다. 또한, 확산 모델에서 합성된 머리 이미지의 다중 뷰 일관성을 강화하고 제어되지 않은 인간 자세의 간섭을 제거하기 위해 최적화 과정에 포즈 일관성 제약을 도입했습니다. 더불어, 3D 아바타 생성을 위한 거친 단계에서 세밀한 단계로의 감독을 용이하게 하는 다중 해상도 렌더링 전략을 제시하여 제안 시스템의 성능을 향상시켰습니다. 결과적으로 생성된 아바타 모델은 추가 텍스트 설명을 사용하여 더욱 편집할 수 있으며, 모션 시퀀스에 의해 구동될 수 있습니다. 실험 결과, AvatarBooth는 텍스트 프롬프트나 특정 이미지로부터의 렌더링 및 기하학적 품질 측면에서 기존의 텍스트-투-3D 방법들을 능가하는 것으로 나타났습니다. 자세한 내용은 프로젝트 웹사이트(https://zeng-yifei.github.io/avatarbooth_page/)를 참조해 주세요.
English
We introduce AvatarBooth, a novel method for generating high-quality 3D
avatars using text prompts or specific images. Unlike previous approaches that
can only synthesize avatars based on simple text descriptions, our method
enables the creation of personalized avatars from casually captured face or
body images, while still supporting text-based model generation and editing.
Our key contribution is the precise avatar generation control by using dual
fine-tuned diffusion models separately for the human face and body. This
enables us to capture intricate details of facial appearance, clothing, and
accessories, resulting in highly realistic avatar generations. Furthermore, we
introduce pose-consistent constraint to the optimization process to enhance the
multi-view consistency of synthesized head images from the diffusion model and
thus eliminate interference from uncontrolled human poses. In addition, we
present a multi-resolution rendering strategy that facilitates coarse-to-fine
supervision of 3D avatar generation, thereby enhancing the performance of the
proposed system. The resulting avatar model can be further edited using
additional text descriptions and driven by motion sequences. Experiments show
that AvatarBooth outperforms previous text-to-3D methods in terms of rendering
and geometric quality from either text prompts or specific images. Please check
our project website at https://zeng-yifei.github.io/avatarbooth_page/.