HumanSplat: 構造的プライアを活用した単一画像からの汎用可能な人間のガウススプラッティング
HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors
June 18, 2024
著者: Panwang Pan, Zhuo Su, Chenguo Lin, Zhen Fan, Yongjie Zhang, Zeming Li, Tingting Shen, Yadong Mu, Yebin Liu
cs.AI
要旨
高忠実度な人間の再構築技術における最近の進展にもかかわらず、密に撮影された画像や時間のかかるインスタンスごとの最適化の要件が、より広範なシナリオでの応用を大きく妨げています。これらの課題に対処するため、我々はHumanSplatを提案します。これは、単一の入力画像から任意の人間の3D Gaussian Splattingプロパティを汎用的に予測するものです。特に、HumanSplatは、2D多視点拡散モデルと人間の構造事前情報を備えた潜在再構築トランスフォーマーで構成されており、幾何学的な事前情報と意味的特徴を統一されたフレームワーク内で巧みに統合します。さらに、人間の意味情報を組み込んだ階層的損失を設計し、高忠実度なテクスチャモデリングを実現し、推定された複数の視点をより良く制約します。標準ベンチマークおよび実世界の画像を用いた包括的な実験により、HumanSplatがフォトリアルな新規視点合成において既存の最先端手法を凌駕することが実証されました。
English
Despite recent advancements in high-fidelity human reconstruction techniques,
the requirements for densely captured images or time-consuming per-instance
optimization significantly hinder their applications in broader scenarios. To
tackle these issues, we present HumanSplat which predicts the 3D Gaussian
Splatting properties of any human from a single input image in a generalizable
manner. In particular, HumanSplat comprises a 2D multi-view diffusion model and
a latent reconstruction transformer with human structure priors that adeptly
integrate geometric priors and semantic features within a unified framework. A
hierarchical loss that incorporates human semantic information is further
designed to achieve high-fidelity texture modeling and better constrain the
estimated multiple views. Comprehensive experiments on standard benchmarks and
in-the-wild images demonstrate that HumanSplat surpasses existing
state-of-the-art methods in achieving photorealistic novel-view synthesis.