LHM: 単一画像から数秒でアニメーション可能な大規模人間再構築モデル
LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds
March 13, 2025
著者: Lingteng Qiu, Xiaodong Gu, Peihao Li, Qi Zuo, Weichao Shen, Junfei Zhang, Kejie Qiu, Weihao Yuan, Guanying Chen, Zilong Dong, Liefeng Bo
cs.AI
要旨
単一画像からのアニメーション可能な3D人体再構成は、形状、外観、変形の分離における曖昧さから困難な課題である。近年の3D人体再構成の進展は主に静的な人体モデリングに焦点を当てており、合成3Dスキャンを用いた学習への依存が一般化能力を制限している。一方、最適化ベースのビデオ手法は高い忠実度を達成するが、制御された撮影条件と計算集約的な精緻化プロセスを必要とする。効率的な静的再構成のための大規模再構成モデルの出現に触発され、我々はLHM(Large Animatable Human Reconstruction Model)を提案し、フィードフォワードパスで3Dガウススプラッティングとして表現される高忠実度アバターを推論する。本モデルは、マルチモーダルトランスフォーマーアーキテクチャを活用し、注意機構を用いて人体の位置特徴と画像特徴を効果的に符号化することで、衣服の形状とテクスチャの詳細な保存を可能にする。さらに、顔の同一性保存と微細なディテールの回復を促進するため、頭部領域のマルチスケール特徴を集約する頭部特徴ピラミッド符号化スキームを提案する。広範な実験により、我々のLHMが、顔や手の後処理なしで数秒で妥当なアニメーション可能な人体を生成し、再構成精度と一般化能力の両面で既存手法を凌駕することを実証した。
English
Animatable 3D human reconstruction from a single image is a challenging
problem due to the ambiguity in decoupling geometry, appearance, and
deformation. Recent advances in 3D human reconstruction mainly focus on static
human modeling, and the reliance of using synthetic 3D scans for training
limits their generalization ability. Conversely, optimization-based video
methods achieve higher fidelity but demand controlled capture conditions and
computationally intensive refinement processes. Motivated by the emergence of
large reconstruction models for efficient static reconstruction, we propose LHM
(Large Animatable Human Reconstruction Model) to infer high-fidelity avatars
represented as 3D Gaussian splatting in a feed-forward pass. Our model
leverages a multimodal transformer architecture to effectively encode the human
body positional features and image features with attention mechanism, enabling
detailed preservation of clothing geometry and texture. To further boost the
face identity preservation and fine detail recovery, we propose a head feature
pyramid encoding scheme to aggregate multi-scale features of the head regions.
Extensive experiments demonstrate that our LHM generates plausible animatable
human in seconds without post-processing for face and hands, outperforming
existing methods in both reconstruction accuracy and generalization ability.Summary
AI-Generated Summary