제로아바타: 단일 이미지에서의 제로샷 3D 아바타 생성
ZeroAvatar: Zero-shot 3D Avatar Generation from a Single Image
May 25, 2023
저자: Zhenzhen Weng, Zeyu Wang, Serena Yeung
cs.AI
초록
최근 텍스트-이미지 생성 기술의 발전으로 제로샷 3D 형태 생성에서 상당한 진전이 이루어졌다. 이는 사전 훈련된 텍스트-이미지 확산 모델을 사용하여 3D 신경 표현(예: Neural Radiance Field, NeRF)의 매개변수를 최적화하는 점수 증류 방법론을 통해 달성된다. 유망한 결과를 보여주고 있지만, 기존 방법들은 종종 인간 신체와 같은 복잡한 형태의 기하학적 구조를 보존하지 못하는 경우가 많다. 이러한 문제를 해결하기 위해, 본 연구에서는 최적화 과정에 명시적인 3D 인간 신체 사전 정보를 도입하는 ZeroAvatar 방법을 제안한다. 구체적으로, 단일 이미지에서 파라미터화된 인간 신체의 매개변수를 추정하고 정제한 후, 최적화 과정에서 포즈된 파라미터화된 신체를 추가적인 기하학적 제약 조건으로 사용하여 확산 모델과 기본 밀도 필드를 정규화한다. 마지막으로, UV 가이드 텍스처 정규화 항을 제안하여 보이지 않는 신체 부위의 텍스처 완성을 추가적으로 안내한다. ZeroAvatar는 최적화 기반 이미지-3D 아바타 생성의 견고성과 3D 일관성을 크게 향상시키며, 기존의 제로샷 이미지-3D 방법들을 능가하는 성능을 보여준다.
English
Recent advancements in text-to-image generation have enabled significant
progress in zero-shot 3D shape generation. This is achieved by score
distillation, a methodology that uses pre-trained text-to-image diffusion
models to optimize the parameters of a 3D neural presentation, e.g. Neural
Radiance Field (NeRF). While showing promising results, existing methods are
often not able to preserve the geometry of complex shapes, such as human
bodies. To address this challenge, we present ZeroAvatar, a method that
introduces the explicit 3D human body prior to the optimization process.
Specifically, we first estimate and refine the parameters of a parametric human
body from a single image. Then during optimization, we use the posed parametric
body as additional geometry constraint to regularize the diffusion model as
well as the underlying density field. Lastly, we propose a UV-guided texture
regularization term to further guide the completion of texture on invisible
body parts. We show that ZeroAvatar significantly enhances the robustness and
3D consistency of optimization-based image-to-3D avatar generation,
outperforming existing zero-shot image-to-3D methods.