HumanSplat: Обобщенное одиночное изображение человека с гауссовым размазыванием с учетом структурных априорных данных
HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors
June 18, 2024
Авторы: Panwang Pan, Zhuo Su, Chenguo Lin, Zhen Fan, Yongjie Zhang, Zeming Li, Tingting Shen, Yadong Mu, Yebin Liu
cs.AI
Аннотация
Несмотря на недавние достижения в техниках высококачественной реконструкции человека, требования к плотно захваченным изображениям или затратному оптимизации для каждого экземпляра значительно затрудняют их применение в более широких сценариях. Для решения этих проблем мы представляем HumanSplat, который предсказывает трехмерные свойства гауссовского сплэттинга любого человека по одному входному изображению общим образом. В частности, HumanSplat включает в себя двумерную модель диффузии с множественными видами и трансформер восстановления с латентными априорными знаниями о структуре человека, которые умело интегрируют геометрические априорные знания и семантические особенности в рамках единой структуры. Дополнительно разработана иерархическая потеря, которая включает семантическую информацию о человеке для достижения моделирования текстуры высокого качества и лучшего ограничения оцененных множественных видов. Обширные эксперименты на стандартных бенчмарках и изображениях "в дикой природе" демонстрируют, что HumanSplat превосходит существующие методы нового синтеза видов, достигая фотореалистичности.
English
Despite recent advancements in high-fidelity human reconstruction techniques,
the requirements for densely captured images or time-consuming per-instance
optimization significantly hinder their applications in broader scenarios. To
tackle these issues, we present HumanSplat which predicts the 3D Gaussian
Splatting properties of any human from a single input image in a generalizable
manner. In particular, HumanSplat comprises a 2D multi-view diffusion model and
a latent reconstruction transformer with human structure priors that adeptly
integrate geometric priors and semantic features within a unified framework. A
hierarchical loss that incorporates human semantic information is further
designed to achieve high-fidelity texture modeling and better constrain the
estimated multiple views. Comprehensive experiments on standard benchmarks and
in-the-wild images demonstrate that HumanSplat surpasses existing
state-of-the-art methods in achieving photorealistic novel-view synthesis.Summary
AI-Generated Summary