Champ: 3Dパラメトリックガイダンスによる制御可能で一貫性のある人間画像アニメーション
Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance
March 21, 2024
著者: Shenhao Zhu, Junming Leo Chen, Zuozhuo Dai, Yinghui Xu, Xun Cao, Yao Yao, Hao Zhu, Siyu Zhu
cs.AI
要旨
本研究では、3D人体パラメトリックモデルを潜在拡散フレームワーク内で活用し、現行の人物生成技術における形状アライメントとモーションガイダンスを強化するための人間画像アニメーション手法を提案します。本手法では、3D人体パラメトリックモデルとしてSMPL(Skinned Multi-Person Linear)モデルを採用し、身体形状とポーズの統一的な表現を確立します。これにより、ソースビデオから複雑な人体ジオメトリとモーション特性を正確に捕捉することが可能となります。具体的には、SMPLシーケンスから得られたレンダリング深度画像、法線マップ、セマンティックマップを、スケルトンベースのモーションガイダンスと共に組み込み、潜在拡散モデルに対する条件付けを包括的な3D形状と詳細なポーズ属性で強化します。空間領域において形状とモーションの潜在表現を融合するために、自己注意機構を統合した多層モーションフュージョンモジュールを採用します。3D人体パラメトリックモデルをモーションガイダンスとして表現することで、参照画像とソースビデオのモーション間における人体のパラメトリック形状アライメントを実行できます。ベンチマークデータセットで実施した実験的評価により、本手法がポーズと形状の変動を正確に捉えた高品質な人間アニメーションを生成する優れた能力を実証しました。さらに、提案手法は提案されたワイルドデータセットにおいても優れた汎化能力を示しています。プロジェクトページ: https://fudan-generative-vision.github.io/champ
English
In this study, we introduce a methodology for human image animation by
leveraging a 3D human parametric model within a latent diffusion framework to
enhance shape alignment and motion guidance in curernt human generative
techniques. The methodology utilizes the SMPL(Skinned Multi-Person Linear)
model as the 3D human parametric model to establish a unified representation of
body shape and pose. This facilitates the accurate capture of intricate human
geometry and motion characteristics from source videos. Specifically, we
incorporate rendered depth images, normal maps, and semantic maps obtained from
SMPL sequences, alongside skeleton-based motion guidance, to enrich the
conditions to the latent diffusion model with comprehensive 3D shape and
detailed pose attributes. A multi-layer motion fusion module, integrating
self-attention mechanisms, is employed to fuse the shape and motion latent
representations in the spatial domain. By representing the 3D human parametric
model as the motion guidance, we can perform parametric shape alignment of the
human body between the reference image and the source video motion.
Experimental evaluations conducted on benchmark datasets demonstrate the
methodology's superior ability to generate high-quality human animations that
accurately capture both pose and shape variations. Furthermore, our approach
also exhibits superior generalization capabilities on the proposed wild
dataset. Project page: https://fudan-generative-vision.github.io/champ.Summary
AI-Generated Summary