ChatPaper.aiChatPaper

HumanDreamer-X: ガウシアン復元によるフォトリアルな単一画像からの人間アバター再構築

HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration

April 4, 2025
著者: Boyuan Wang, Runqi Ouyang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Guan Huang, Lihong Liu, Xingang Wang
cs.AI

要旨

単一画像からの人体再構築は、デジタルヒューマンモデリングアプリケーションにおいて重要であるが、依然として非常に困難な課題である。現在のアプローチでは、3D再構築とアニメーションのための多視点画像を合成するために生成モデルに依存している。しかし、単一の人体画像から直接複数の視点を生成することは、幾何学的不整合を引き起こし、再構築されたモデルにおいて断片化やぼやけた四肢などの問題を生じさせる。これらの制限を克服するため、我々はHumanDreamer-Xを提案する。これは、多視点人体生成と再構築を統合パイプラインに統合する新しいフレームワークであり、再構築された3Dモデルの幾何学的一貫性と視覚的忠実度を大幅に向上させる。このフレームワークでは、3D Gaussian Splattingが明示的な3D表現として機能し、初期の幾何学と外観の優先順位を提供する。この基盤の上に、HumanFixerが3DGSレンダリングを復元するように訓練され、フォトリアルな結果を保証する。さらに、多視点人体生成におけるアテンションメカニズムに内在する課題を探求し、幾何学的詳細と多視点間の同一性一貫性を効果的に向上させるアテンションモジュレーション戦略を提案する。実験結果は、我々のアプローチが生成と再構築のPSNR品質指標をそれぞれ16.45%と12.65%向上させ、最大25.62 dBのPSNRを達成することを示している。また、実世界データに対する汎化能力と、様々な人体再構築バックボーンモデルへの適用性も示している。
English
Single-image human reconstruction is vital for digital human modeling applications but remains an extremely challenging task. Current approaches rely on generative models to synthesize multi-view images for subsequent 3D reconstruction and animation. However, directly generating multiple views from a single human image suffers from geometric inconsistencies, resulting in issues like fragmented or blurred limbs in the reconstructed models. To tackle these limitations, we introduce HumanDreamer-X, a novel framework that integrates multi-view human generation and reconstruction into a unified pipeline, which significantly enhances the geometric consistency and visual fidelity of the reconstructed 3D models. In this framework, 3D Gaussian Splatting serves as an explicit 3D representation to provide initial geometry and appearance priority. Building upon this foundation, HumanFixer is trained to restore 3DGS renderings, which guarantee photorealistic results. Furthermore, we delve into the inherent challenges associated with attention mechanisms in multi-view human generation, and propose an attention modulation strategy that effectively enhances geometric details identity consistency across multi-view. Experimental results demonstrate that our approach markedly improves generation and reconstruction PSNR quality metrics by 16.45% and 12.65%, respectively, achieving a PSNR of up to 25.62 dB, while also showing generalization capabilities on in-the-wild data and applicability to various human reconstruction backbone models.

Summary

AI-Generated Summary

PDF132April 7, 2025