HumanSplat: Representación Gaussiana Generalizable de Humanos a partir de una Única Imagen con Prioridades Estructurales
HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors
June 18, 2024
Autores: Panwang Pan, Zhuo Su, Chenguo Lin, Zhen Fan, Yongjie Zhang, Zeming Li, Tingting Shen, Yadong Mu, Yebin Liu
cs.AI
Resumen
A pesar de los recientes avances en las técnicas de reconstrucción humana de alta fidelidad, los requisitos de imágenes capturadas densamente o de una optimización lenta por instancia limitan significativamente sus aplicaciones en escenarios más amplios. Para abordar estos problemas, presentamos HumanSplat, que predice las propiedades de 3D Gaussian Splatting de cualquier humano a partir de una sola imagen de entrada de manera generalizable. En particular, HumanSplat comprende un modelo de difusión multi-vista en 2D y un transformador de reconstrucción latente con priors de estructura humana que integran hábilmente priors geométricos y características semánticas dentro de un marco unificado. Además, se diseña una pérdida jerárquica que incorpora información semántica humana para lograr un modelado de textura de alta fidelidad y restringir mejor las múltiples vistas estimadas. Experimentos exhaustivos en benchmarks estándar e imágenes en entornos reales demuestran que HumanSplat supera a los métodos existentes más avanzados en la síntesis de nuevas vistas fotorrealistas.
English
Despite recent advancements in high-fidelity human reconstruction techniques,
the requirements for densely captured images or time-consuming per-instance
optimization significantly hinder their applications in broader scenarios. To
tackle these issues, we present HumanSplat which predicts the 3D Gaussian
Splatting properties of any human from a single input image in a generalizable
manner. In particular, HumanSplat comprises a 2D multi-view diffusion model and
a latent reconstruction transformer with human structure priors that adeptly
integrate geometric priors and semantic features within a unified framework. A
hierarchical loss that incorporates human semantic information is further
designed to achieve high-fidelity texture modeling and better constrain the
estimated multiple views. Comprehensive experiments on standard benchmarks and
in-the-wild images demonstrate that HumanSplat surpasses existing
state-of-the-art methods in achieving photorealistic novel-view synthesis.Summary
AI-Generated Summary