HumanDreamer-X: 가우시안 복원을 통한 단일 이미지 기반 포토리얼리스틱 인간 아바타 재구성
HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration
April 4, 2025
저자: Boyuan Wang, Runqi Ouyang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Guan Huang, Lihong Liu, Xingang Wang
cs.AI
초록
단일 이미지 기반 인간 복원은 디지털 인간 모델링 애플리케이션에서 매우 중요하지만 여전히 극도로 어려운 과제로 남아 있습니다. 현재의 접근 방식은 생성 모델을 활용하여 다중 뷰 이미지를 합성한 후 3D 복원 및 애니메이션을 수행합니다. 그러나 단일 인간 이미지에서 직접 다중 뷰를 생성하는 경우 기하학적 불일치가 발생하여 복원된 모델에서 팔다리가 조각나거나 흐려지는 등의 문제가 발생합니다. 이러한 한계를 극복하기 위해, 우리는 HumanDreamer-X라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 다중 뷰 인간 생성과 복원을 통합된 파이프라인으로 통합하여 복원된 3D 모델의 기하학적 일관성과 시각적 충실도를 크게 향상시킵니다. 이 프레임워크에서 3D Gaussian Splatting은 명시적 3D 표현으로서 초기 기하학 및 외관 우선순위를 제공합니다. 이를 기반으로 HumanFixer는 3DGS 렌더링을 복원하도록 훈련되어 사실적인 결과를 보장합니다. 또한, 우리는 다중 뷰 인간 생성에서 주의 메커니즘과 관련된 내재적 문제를 깊이 있게 탐구하고, 기하학적 세부 사항과 다중 뷰 간의 일관성을 효과적으로 향상시키는 주의 조정 전략을 제안합니다. 실험 결과는 우리의 접근 방식이 생성 및 복원 PSNR 품질 지표를 각각 16.45%와 12.65% 향상시켜 최대 25.62 dB의 PSNR을 달성함을 보여주며, 실제 데이터에 대한 일반화 능력과 다양한 인간 복원 백본 모델에 대한 적용 가능성도 입증합니다.
English
Single-image human reconstruction is vital for digital human modeling
applications but remains an extremely challenging task. Current approaches rely
on generative models to synthesize multi-view images for subsequent 3D
reconstruction and animation. However, directly generating multiple views from
a single human image suffers from geometric inconsistencies, resulting in
issues like fragmented or blurred limbs in the reconstructed models. To tackle
these limitations, we introduce HumanDreamer-X, a novel framework that
integrates multi-view human generation and reconstruction into a unified
pipeline, which significantly enhances the geometric consistency and visual
fidelity of the reconstructed 3D models. In this framework, 3D Gaussian
Splatting serves as an explicit 3D representation to provide initial geometry
and appearance priority. Building upon this foundation, HumanFixer is
trained to restore 3DGS renderings, which guarantee photorealistic results.
Furthermore, we delve into the inherent challenges associated with attention
mechanisms in multi-view human generation, and propose an attention modulation
strategy that effectively enhances geometric details identity consistency
across multi-view. Experimental results demonstrate that our approach markedly
improves generation and reconstruction PSNR quality metrics by 16.45% and
12.65%, respectively, achieving a PSNR of up to 25.62 dB, while also showing
generalization capabilities on in-the-wild data and applicability to various
human reconstruction backbone models.Summary
AI-Generated Summary