DreamActor-M1 : Animation d'images humaines holistique, expressive et robuste avec guidage hybride
DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance
April 2, 2025
Auteurs: Yuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu
cs.AI
Résumé
Bien que les méthodes récentes d'animation humaine basées sur l'image parviennent à synthétiser des mouvements corporels et faciaux réalistes, des lacunes critiques subsistent en matière de contrôlabilité holistique fine, d'adaptabilité multi-échelle et de cohérence temporelle à long terme, ce qui limite leur expressivité et leur robustesse. Nous proposons un cadre basé sur un transformateur de diffusion (DiT), DreamActor-M1, avec un guidage hybride pour surmonter ces limitations. Pour le guidage des mouvements, nos signaux de contrôle hybrides qui intègrent des représentations faciales implicites, des sphères de tête 3D et des squelettes corporels 3D permettent un contrôle robuste des expressions faciales et des mouvements corporels, tout en produisant des animations expressives et préservant l'identité. Pour l'adaptation à l'échelle, afin de gérer diverses poses corporelles et échelles d'image allant des portraits aux vues en pied, nous utilisons une stratégie d'entraînement progressive avec des données de résolutions et d'échelles variées. Pour le guidage de l'apparence, nous intégrons les motifs de mouvement des images séquentielles avec des références visuelles complémentaires, assurant une cohérence temporelle à long terme pour les régions non vues lors de mouvements complexes. Les expériences démontrent que notre méthode surpasse les travaux de pointe, offrant des résultats expressifs pour la génération de portraits, de bustes et de vues en pied avec une cohérence à long terme robuste. Page du projet : https://grisoon.github.io/DreamActor-M1/.
English
While recent image-based human animation methods achieve realistic body and
facial motion synthesis, critical gaps remain in fine-grained holistic
controllability, multi-scale adaptability, and long-term temporal coherence,
which leads to their lower expressiveness and robustness. We propose a
diffusion transformer (DiT) based framework, DreamActor-M1, with hybrid
guidance to overcome these limitations. For motion guidance, our hybrid control
signals that integrate implicit facial representations, 3D head spheres, and 3D
body skeletons achieve robust control of facial expressions and body movements,
while producing expressive and identity-preserving animations. For scale
adaptation, to handle various body poses and image scales ranging from
portraits to full-body views, we employ a progressive training strategy using
data with varying resolutions and scales. For appearance guidance, we integrate
motion patterns from sequential frames with complementary visual references,
ensuring long-term temporal coherence for unseen regions during complex
movements. Experiments demonstrate that our method outperforms the
state-of-the-art works, delivering expressive results for portraits,
upper-body, and full-body generation with robust long-term consistency. Project
Page: https://grisoon.github.io/DreamActor-M1/.Summary
AI-Generated Summary