HumanSplat: Generaliseerbare Single-Image Human Gaussian Splatting met Structuur Priors
HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors
June 18, 2024
Auteurs: Panwang Pan, Zhuo Su, Chenguo Lin, Zhen Fan, Yongjie Zhang, Zeming Li, Tingting Shen, Yadong Mu, Yebin Liu
cs.AI
Samenvatting
Ondanks recente vooruitgang in technieken voor hoogwaardige menselijke reconstructie,
belemmeren de vereisten voor dicht vastgelegde afbeeldingen of tijdrovende per-instantie
optimalisatie hun toepassingen in bredere scenario's aanzienlijk. Om
deze problemen aan te pakken, presenteren we HumanSplat, dat de 3D Gaussian
Splatting-eigenschappen van elke mens voorspelt vanuit een enkele invoerafbeelding op een generaliseerbare
manier. In het bijzonder bestaat HumanSplat uit een 2D multi-view diffusiemodel en
een latente reconstructie-transformer met menselijke structuurpriors die geometrische priors
en semantische kenmerken op bekwame wijze integreren binnen een uniform raamwerk. Een
hiërarchisch verlies dat menselijke semantische informatie incorporeert, is verder
ontworpen om hoogwaardige textuurmodellering te bereiken en de geschatte meerdere
weergaven beter te beperken. Uitgebreide experimenten op standaard benchmarks en
in-the-wild afbeeldingen tonen aan dat HumanSplat bestaande
state-of-the-art methoden overtreft in het bereiken van fotorealistische nieuwe-weergave-synthese.
English
Despite recent advancements in high-fidelity human reconstruction techniques,
the requirements for densely captured images or time-consuming per-instance
optimization significantly hinder their applications in broader scenarios. To
tackle these issues, we present HumanSplat which predicts the 3D Gaussian
Splatting properties of any human from a single input image in a generalizable
manner. In particular, HumanSplat comprises a 2D multi-view diffusion model and
a latent reconstruction transformer with human structure priors that adeptly
integrate geometric priors and semantic features within a unified framework. A
hierarchical loss that incorporates human semantic information is further
designed to achieve high-fidelity texture modeling and better constrain the
estimated multiple views. Comprehensive experiments on standard benchmarks and
in-the-wild images demonstrate that HumanSplat surpasses existing
state-of-the-art methods in achieving photorealistic novel-view synthesis.