ChatPaper.aiChatPaper

HumanSplat: Modellazione Gaussiana Generalizzabile di Esseri Umani da Singola Immagine con Prior Strutturali

HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors

June 18, 2024
Autori: Panwang Pan, Zhuo Su, Chenguo Lin, Zhen Fan, Yongjie Zhang, Zeming Li, Tingting Shen, Yadong Mu, Yebin Liu
cs.AI

Abstract

Nonostante i recenti progressi nelle tecniche di ricostruzione umana ad alta fedeltà, i requisiti di immagini acquisite in modo denso o di ottimizzazione lunga e specifica per ogni istanza limitano significativamente la loro applicabilità in scenari più ampi. Per affrontare questi problemi, presentiamo HumanSplat, che predice le proprietà di 3D Gaussian Splatting di qualsiasi essere umano a partire da una singola immagine in modo generalizzabile. In particolare, HumanSplat comprende un modello di diffusione multi-vista 2D e un trasformatore di ricostruzione latente con prior strutturali umane, che integrano abilmente prior geometriche e caratteristiche semantiche all’interno di un framework unificato. È stato inoltre progettato una funzione di perdita gerarchica che incorpora informazioni semantiche umane per ottenere una modellazione delle texture ad alta fedeltà e vincolare meglio le viste multiple stimate. Esperimenti completi su benchmark standard e immagini in contesti reali dimostrano che HumanSplat supera i metodi state-of-the-art esistenti nel raggiungere una sintesi fotorealistica di nuove viste.
English
Despite recent advancements in high-fidelity human reconstruction techniques, the requirements for densely captured images or time-consuming per-instance optimization significantly hinder their applications in broader scenarios. To tackle these issues, we present HumanSplat which predicts the 3D Gaussian Splatting properties of any human from a single input image in a generalizable manner. In particular, HumanSplat comprises a 2D multi-view diffusion model and a latent reconstruction transformer with human structure priors that adeptly integrate geometric priors and semantic features within a unified framework. A hierarchical loss that incorporates human semantic information is further designed to achieve high-fidelity texture modeling and better constrain the estimated multiple views. Comprehensive experiments on standard benchmarks and in-the-wild images demonstrate that HumanSplat surpasses existing state-of-the-art methods in achieving photorealistic novel-view synthesis.
PDF121February 7, 2026