ChatPaper.aiChatPaper

HumanSplat: Verallgemeinerbares Single-Image Human Gaussian Splatting mit Strukturprioritäten

HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors

June 18, 2024
Autoren: Panwang Pan, Zhuo Su, Chenguo Lin, Zhen Fan, Yongjie Zhang, Zeming Li, Tingting Shen, Yadong Mu, Yebin Liu
cs.AI

Zusammenfassung

Trotz der jüngsten Fortschritte bei hochauflösender menschlicher Rekonstruktionstechniken behindern die Anforderungen an dicht erfasste Bilder oder zeitaufwändige Optimierung pro Instanz erheblich ihre Anwendungen in breiteren Szenarien. Um diese Probleme anzugehen, präsentieren wir HumanSplat, das die 3D-Gaußsche Splatting-Eigenschaften eines beliebigen Menschen aus einem einzigen Eingabebild auf eine generalisierbare Weise vorhersagt. Insbesondere umfasst HumanSplat ein 2D-Multi-View-Diffusionsmodell und einen latenten Rekonstruktions-Transformer mit menschlichen Strukturpriors, die geometrische Priors und semantische Merkmale geschickt in einem vereinheitlichten Rahmen integrieren. Eine hierarchische Verlustfunktion, die menschliche semantische Informationen einbezieht, wurde zusätzlich entwickelt, um eine hochauflösende Texturmodellierung zu erreichen und die geschätzten mehreren Ansichten besser zu beschränken. Umfassende Experimente an Standard-Benchmarks und In-the-Wild-Bildern zeigen, dass HumanSplat bestehende State-of-the-Art-Methoden bei der Erzielung fotorealistischer Neuansicht-Synthese übertrifft.
English
Despite recent advancements in high-fidelity human reconstruction techniques, the requirements for densely captured images or time-consuming per-instance optimization significantly hinder their applications in broader scenarios. To tackle these issues, we present HumanSplat which predicts the 3D Gaussian Splatting properties of any human from a single input image in a generalizable manner. In particular, HumanSplat comprises a 2D multi-view diffusion model and a latent reconstruction transformer with human structure priors that adeptly integrate geometric priors and semantic features within a unified framework. A hierarchical loss that incorporates human semantic information is further designed to achieve high-fidelity texture modeling and better constrain the estimated multiple views. Comprehensive experiments on standard benchmarks and in-the-wild images demonstrate that HumanSplat surpasses existing state-of-the-art methods in achieving photorealistic novel-view synthesis.

Summary

AI-Generated Summary

PDF121December 4, 2024