ChatPaper.aiChatPaper

HumanSplat: 구조적 사전 지식을 활용한 일반화 가능한 단일 이미지 인간 가우시안 스플래팅

HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors

June 18, 2024
저자: Panwang Pan, Zhuo Su, Chenguo Lin, Zhen Fan, Yongjie Zhang, Zeming Li, Tingting Shen, Yadong Mu, Yebin Liu
cs.AI

초록

고해상도 인간 복원 기술의 최근 발전에도 불구하고, 밀집하게 촬영된 이미지나 시간이 많이 소요되는 개별 인스턴스 최적화 요구 사항은 더 넓은 시나리오에서의 적용을 크게 방해하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 단일 입력 이미지로부터 일반화 가능한 방식으로 3D 가우시안 스플래팅 속성을 예측하는 HumanSplat을 제안합니다. 특히, HumanSplat은 2D 다중 뷰 확산 모델과 인간 구조 사전 지식을 갖춘 잠재 복원 트랜스포머로 구성되어 있으며, 이는 기하학적 사전 지식과 의미론적 특징을 통합된 프레임워크 내에서 능숙하게 통합합니다. 인간의 의미론적 정보를 포함하는 계층적 손실 함수는 고해상도 텍스처 모델링을 달성하고 추정된 다중 뷰를 더 잘 제약하기 위해 추가로 설계되었습니다. 표준 벤치마크와 실제 환경에서 촬영된 이미지에 대한 포괄적인 실험을 통해 HumanSplat이 포토리얼리스틱한 새로운 뷰 합성에서 기존의 최첨단 방법들을 능가함을 입증했습니다.
English
Despite recent advancements in high-fidelity human reconstruction techniques, the requirements for densely captured images or time-consuming per-instance optimization significantly hinder their applications in broader scenarios. To tackle these issues, we present HumanSplat which predicts the 3D Gaussian Splatting properties of any human from a single input image in a generalizable manner. In particular, HumanSplat comprises a 2D multi-view diffusion model and a latent reconstruction transformer with human structure priors that adeptly integrate geometric priors and semantic features within a unified framework. A hierarchical loss that incorporates human semantic information is further designed to achieve high-fidelity texture modeling and better constrain the estimated multiple views. Comprehensive experiments on standard benchmarks and in-the-wild images demonstrate that HumanSplat surpasses existing state-of-the-art methods in achieving photorealistic novel-view synthesis.

Summary

AI-Generated Summary

PDF121December 4, 2024