ChatPaper.aiChatPaper

DreamActor-M1 : Animation d'images humaines holistique, expressive et robuste avec guidage hybride

DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

April 2, 2025
Auteurs: Yuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu
cs.AI

Résumé

Bien que les méthodes récentes d'animation humaine basées sur l'image parviennent à synthétiser des mouvements corporels et faciaux réalistes, des lacunes critiques subsistent en matière de contrôlabilité holistique fine, d'adaptabilité multi-échelle et de cohérence temporelle à long terme, ce qui limite leur expressivité et leur robustesse. Nous proposons un cadre basé sur un transformateur de diffusion (DiT), DreamActor-M1, avec un guidage hybride pour surmonter ces limitations. Pour le guidage des mouvements, nos signaux de contrôle hybrides qui intègrent des représentations faciales implicites, des sphères de tête 3D et des squelettes corporels 3D permettent un contrôle robuste des expressions faciales et des mouvements corporels, tout en produisant des animations expressives et préservant l'identité. Pour l'adaptation à l'échelle, afin de gérer diverses poses corporelles et échelles d'image allant des portraits aux vues en pied, nous utilisons une stratégie d'entraînement progressive avec des données de résolutions et d'échelles variées. Pour le guidage de l'apparence, nous intégrons les motifs de mouvement des images séquentielles avec des références visuelles complémentaires, assurant une cohérence temporelle à long terme pour les régions non vues lors de mouvements complexes. Les expériences démontrent que notre méthode surpasse les travaux de pointe, offrant des résultats expressifs pour la génération de portraits, de bustes et de vues en pied avec une cohérence à long terme robuste. Page du projet : https://grisoon.github.io/DreamActor-M1/.
English
While recent image-based human animation methods achieve realistic body and facial motion synthesis, critical gaps remain in fine-grained holistic controllability, multi-scale adaptability, and long-term temporal coherence, which leads to their lower expressiveness and robustness. We propose a diffusion transformer (DiT) based framework, DreamActor-M1, with hybrid guidance to overcome these limitations. For motion guidance, our hybrid control signals that integrate implicit facial representations, 3D head spheres, and 3D body skeletons achieve robust control of facial expressions and body movements, while producing expressive and identity-preserving animations. For scale adaptation, to handle various body poses and image scales ranging from portraits to full-body views, we employ a progressive training strategy using data with varying resolutions and scales. For appearance guidance, we integrate motion patterns from sequential frames with complementary visual references, ensuring long-term temporal coherence for unseen regions during complex movements. Experiments demonstrate that our method outperforms the state-of-the-art works, delivering expressive results for portraits, upper-body, and full-body generation with robust long-term consistency. Project Page: https://grisoon.github.io/DreamActor-M1/.

Summary

AI-Generated Summary

PDF657April 3, 2025