ChatPaper.aiChatPaper

HumanSplat : Modélisation gaussienne généralisable d'humains à partir d'une seule image avec a priori structurels

HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors

June 18, 2024
papers.authors: Panwang Pan, Zhuo Su, Chenguo Lin, Zhen Fan, Yongjie Zhang, Zeming Li, Tingting Shen, Yadong Mu, Yebin Liu
cs.AI

papers.abstract

Malgré les récents progrès dans les techniques de reconstruction humaine haute fidélité, les exigences en matière d'images densément capturées ou d'optimisation longue et spécifique à chaque instance limitent considérablement leurs applications dans des scénarios plus vastes. Pour résoudre ces problèmes, nous présentons HumanSplat, qui prédit les propriétés de 3D Gaussian Splatting de n'importe quel humain à partir d'une seule image d'entrée de manière généralisable. En particulier, HumanSplat comprend un modèle de diffusion multi-vues 2D et un transformateur de reconstruction latente intégrant des connaissances préalables sur la structure humaine, qui intègrent habilement des informations géométriques préalables et des caractéristiques sémantiques dans un cadre unifié. Une fonction de perte hiérarchique incorporant des informations sémantiques humaines est en outre conçue pour atteindre une modélisation de texture haute fidélité et mieux contraindre les vues multiples estimées. Des expériences approfondies sur des benchmarks standards et des images en conditions réelles démontrent que HumanSplat surpasse les méthodes existantes de pointe dans la synthèse de nouvelles vues photoréalistes.
English
Despite recent advancements in high-fidelity human reconstruction techniques, the requirements for densely captured images or time-consuming per-instance optimization significantly hinder their applications in broader scenarios. To tackle these issues, we present HumanSplat which predicts the 3D Gaussian Splatting properties of any human from a single input image in a generalizable manner. In particular, HumanSplat comprises a 2D multi-view diffusion model and a latent reconstruction transformer with human structure priors that adeptly integrate geometric priors and semantic features within a unified framework. A hierarchical loss that incorporates human semantic information is further designed to achieve high-fidelity texture modeling and better constrain the estimated multiple views. Comprehensive experiments on standard benchmarks and in-the-wild images demonstrate that HumanSplat surpasses existing state-of-the-art methods in achieving photorealistic novel-view synthesis.
PDF121December 4, 2024