ChatPaper.aiChatPaper

HumanSplat: Representação Gaussiana Generalizável de Humanos a partir de uma Única Imagem com Prioridades Estruturais

HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors

June 18, 2024
Autores: Panwang Pan, Zhuo Su, Chenguo Lin, Zhen Fan, Yongjie Zhang, Zeming Li, Tingting Shen, Yadong Mu, Yebin Liu
cs.AI

Resumo

Apesar dos avanços recentes nas técnicas de reconstrução humana de alta fidelidade, os requisitos para imagens densamente capturadas ou otimizações demoradas por instância dificultam significativamente suas aplicações em cenários mais amplos. Para enfrentar esses desafios, apresentamos o HumanSplat, que prevê as propriedades de 3D Gaussian Splatting de qualquer humano a partir de uma única imagem de entrada de maneira generalizável. Em particular, o HumanSplat compreende um modelo de difusão multi-visão 2D e um transformador de reconstrução latente com prioridades de estrutura humana que integram habilmente prioridades geométricas e características semânticas em um framework unificado. Uma função de perda hierárquica que incorpora informações semânticas humanas foi projetada para alcançar modelagem de textura de alta fidelidade e restringir melhor as múltiplas visões estimadas. Experimentos abrangentes em benchmarks padrão e imagens do mundo real demonstram que o HumanSplat supera os métodos state-of-the-art existentes na síntese de novas visões foto-realistas.
English
Despite recent advancements in high-fidelity human reconstruction techniques, the requirements for densely captured images or time-consuming per-instance optimization significantly hinder their applications in broader scenarios. To tackle these issues, we present HumanSplat which predicts the 3D Gaussian Splatting properties of any human from a single input image in a generalizable manner. In particular, HumanSplat comprises a 2D multi-view diffusion model and a latent reconstruction transformer with human structure priors that adeptly integrate geometric priors and semantic features within a unified framework. A hierarchical loss that incorporates human semantic information is further designed to achieve high-fidelity texture modeling and better constrain the estimated multiple views. Comprehensive experiments on standard benchmarks and in-the-wild images demonstrate that HumanSplat surpasses existing state-of-the-art methods in achieving photorealistic novel-view synthesis.
PDF121December 4, 2024