ChatPaper.aiChatPaper

형상 가이드 확산을 통한 단일 이미지 3D 인간 디지털화

Single-Image 3D Human Digitization with Shape-Guided Diffusion

November 15, 2023
저자: Badour AlBahar, Shunsuke Saito, Hung-Yu Tseng, Changil Kim, Johannes Kopf, Jia-Bin Huang
cs.AI

초록

단일 입력 이미지로부터 일관된 고해상도 외관을 가진 사람의 360도 뷰를 생성하는 접근 방식을 제시합니다. NeRF 및 그 변형 모델들은 일반적으로 다양한 시점에서 촬영된 비디오나 이미지를 필요로 합니다. 단안 입력을 사용하는 대부분의 기존 접근법은 지도 학습을 위한 실측 3D 스캔에 의존하거나 3D 일관성이 부족합니다. 최근 3D 생성 모델들은 3D 일관성을 갖춘 인간 디지털화의 가능성을 보여주지만, 이러한 접근법들은 다양한 의상 외관에 대해 잘 일반화되지 않으며 결과물이 사실적이지 못합니다. 기존 연구와 달리, 우리는 일반적인 이미지 합성 작업을 위해 사전 학습된 고용량 2D 확산 모델을 의상을 입은 인간의 외관 사전 지식으로 활용합니다. 입력된 사람의 정체성을 유지하면서 더 나은 3D 일관성을 달성하기 위해, 실루엣과 표면 법선에 기반한 형태 가이드 확산을 통해 누락된 영역을 채우며 입력 이미지 속 인간의 다중 뷰를 점진적으로 합성합니다. 그런 다음, 이러한 합성된 다중 뷰 이미지를 역렌더링을 통해 융합하여 주어진 사람의 완전히 텍스처링된 고해상도 3D 메시를 얻습니다. 실험 결과, 우리의 접근법은 기존 방법들을 능가하며 단일 이미지로부터 복잡한 텍스처를 가진 다양한 의상을 입은 인간의 사실적인 360도 합성을 달성함을 보여줍니다.
English
We present an approach to generate a 360-degree view of a person with a consistent, high-resolution appearance from a single input image. NeRF and its variants typically require videos or images from different viewpoints. Most existing approaches taking monocular input either rely on ground-truth 3D scans for supervision or lack 3D consistency. While recent 3D generative models show promise of 3D consistent human digitization, these approaches do not generalize well to diverse clothing appearances, and the results lack photorealism. Unlike existing work, we utilize high-capacity 2D diffusion models pretrained for general image synthesis tasks as an appearance prior of clothed humans. To achieve better 3D consistency while retaining the input identity, we progressively synthesize multiple views of the human in the input image by inpainting missing regions with shape-guided diffusion conditioned on silhouette and surface normal. We then fuse these synthesized multi-view images via inverse rendering to obtain a fully textured high-resolution 3D mesh of the given person. Experiments show that our approach outperforms prior methods and achieves photorealistic 360-degree synthesis of a wide range of clothed humans with complex textures from a single image.
PDF221December 15, 2024