Champ : Animation d'images humaines contrôlable et cohérente avec guidage paramétrique 3D
Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance
March 21, 2024
Auteurs: Shenhao Zhu, Junming Leo Chen, Zuozhuo Dai, Yinghui Xu, Xun Cao, Yao Yao, Hao Zhu, Siyu Zhu
cs.AI
Résumé
Dans cette étude, nous présentons une méthodologie pour l'animation d'images humaines en exploitant un modèle paramétrique humain 3D au sein d'un cadre de diffusion latente afin d'améliorer l'alignement des formes et le guidage du mouvement dans les techniques actuelles de génération humaine. La méthodologie utilise le modèle SMPL (Skinned Multi-Person Linear) comme modèle paramétrique humain 3D pour établir une représentation unifiée de la forme corporelle et de la posture. Cela facilite la capture précise de la géométrie humaine complexe et des caractéristiques de mouvement à partir de vidéos sources. Plus précisément, nous intégrons des images de profondeur rendues, des cartes normales et des cartes sémantiques obtenues à partir de séquences SMPL, ainsi qu'un guidage de mouvement basé sur le squelette, pour enrichir les conditions du modèle de diffusion latente avec une forme 3D complète et des attributs de posture détaillés. Un module de fusion de mouvement multicouche, intégrant des mécanismes d'auto-attention, est utilisé pour fusionner les représentations latentes de la forme et du mouvement dans le domaine spatial. En représentant le modèle paramétrique humain 3D comme guide de mouvement, nous pouvons effectuer un alignement paramétrique de la forme du corps humain entre l'image de référence et le mouvement de la vidéo source. Les évaluations expérimentales menées sur des ensembles de données de référence démontrent la capacité supérieure de la méthodologie à générer des animations humaines de haute qualité qui capturent avec précision les variations de posture et de forme. De plus, notre approche montre également des capacités de généralisation supérieures sur le jeu de données proposé en conditions réelles. Page du projet : https://fudan-generative-vision.github.io/champ.
English
In this study, we introduce a methodology for human image animation by
leveraging a 3D human parametric model within a latent diffusion framework to
enhance shape alignment and motion guidance in curernt human generative
techniques. The methodology utilizes the SMPL(Skinned Multi-Person Linear)
model as the 3D human parametric model to establish a unified representation of
body shape and pose. This facilitates the accurate capture of intricate human
geometry and motion characteristics from source videos. Specifically, we
incorporate rendered depth images, normal maps, and semantic maps obtained from
SMPL sequences, alongside skeleton-based motion guidance, to enrich the
conditions to the latent diffusion model with comprehensive 3D shape and
detailed pose attributes. A multi-layer motion fusion module, integrating
self-attention mechanisms, is employed to fuse the shape and motion latent
representations in the spatial domain. By representing the 3D human parametric
model as the motion guidance, we can perform parametric shape alignment of the
human body between the reference image and the source video motion.
Experimental evaluations conducted on benchmark datasets demonstrate the
methodology's superior ability to generate high-quality human animations that
accurately capture both pose and shape variations. Furthermore, our approach
also exhibits superior generalization capabilities on the proposed wild
dataset. Project page: https://fudan-generative-vision.github.io/champ.Summary
AI-Generated Summary