Champ : Animation d'images humaines contrôlable et cohérente avec guidage paramétrique 3D

papers.abstract

Dans cette étude, nous présentons une méthodologie pour l'animation d'images humaines en exploitant un modèle paramétrique humain 3D au sein d'un cadre de diffusion latente afin d'améliorer l'alignement des formes et le guidage du mouvement dans les techniques actuelles de génération humaine. La méthodologie utilise le modèle SMPL (Skinned Multi-Person Linear) comme modèle paramétrique humain 3D pour établir une représentation unifiée de la forme corporelle et de la posture. Cela facilite la capture précise de la géométrie humaine complexe et des caractéristiques de mouvement à partir de vidéos sources. Plus précisément, nous intégrons des images de profondeur rendues, des cartes normales et des cartes sémantiques obtenues à partir de séquences SMPL, ainsi qu'un guidage de mouvement basé sur le squelette, pour enrichir les conditions du modèle de diffusion latente avec une forme 3D complète et des attributs de posture détaillés. Un module de fusion de mouvement multicouche, intégrant des mécanismes d'auto-attention, est utilisé pour fusionner les représentations latentes de la forme et du mouvement dans le domaine spatial. En représentant le modèle paramétrique humain 3D comme guide de mouvement, nous pouvons effectuer un alignement paramétrique de la forme du corps humain entre l'image de référence et le mouvement de la vidéo source. Les évaluations expérimentales menées sur des ensembles de données de référence démontrent la capacité supérieure de la méthodologie à générer des animations humaines de haute qualité qui capturent avec précision les variations de posture et de forme. De plus, notre approche montre également des capacités de généralisation supérieures sur le jeu de données proposé en conditions réelles. Page du projet : https://fudan-generative-vision.github.io/champ.

English

In this study, we introduce a methodology for human image animation by leveraging a 3D human parametric model within a latent diffusion framework to enhance shape alignment and motion guidance in curernt human generative techniques. The methodology utilizes the SMPL(Skinned Multi-Person Linear) model as the 3D human parametric model to establish a unified representation of body shape and pose. This facilitates the accurate capture of intricate human geometry and motion characteristics from source videos. Specifically, we incorporate rendered depth images, normal maps, and semantic maps obtained from SMPL sequences, alongside skeleton-based motion guidance, to enrich the conditions to the latent diffusion model with comprehensive 3D shape and detailed pose attributes. A multi-layer motion fusion module, integrating self-attention mechanisms, is employed to fuse the shape and motion latent representations in the spatial domain. By representing the 3D human parametric model as the motion guidance, we can perform parametric shape alignment of the human body between the reference image and the source video motion. Experimental evaluations conducted on benchmark datasets demonstrate the methodology's superior ability to generate high-quality human animations that accurately capture both pose and shape variations. Furthermore, our approach also exhibits superior generalization capabilities on the proposed wild dataset. Project page: https://fudan-generative-vision.github.io/champ.

Champ : Animation d'images humaines contrôlable et cohérente avec guidage paramétrique 3D

Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance

papers.abstract

Support