X-Dyna : Animation expressive dynamique d'images humaines
X-Dyna: Expressive Dynamic Human Image Animation
January 17, 2025
Auteurs: Di Chang, Hongyi Xu, You Xie, Yipeng Gao, Zhengfei Kuang, Shengqu Cai, Chenxu Zhang, Guoxian Song, Chao Wang, Yichun Shi, Zeyuan Chen, Shijie Zhou, Linjie Luo, Gordon Wetzstein, Mohammad Soleymani
cs.AI
Résumé
Nous présentons X-Dyna, un nouveau pipeline à base de diffusion zéro-shot pour animer une seule image humaine en utilisant des expressions faciales et des mouvements corporels dérivés d'une vidéo de référence, qui génère des dynamiques réalistes et contextuellement adaptées à la fois pour le sujet et l'environnement environnant. S'appuyant sur des approches antérieures centrées sur le contrôle de la pose humaine, X-Dyna aborde les lacunes clés entraînant la perte de détails dynamiques, améliorant ainsi les qualités réalistes des animations vidéo humaines. Au cœur de notre approche se trouve le Dynamics-Adapter, un module léger qui intègre efficacement le contexte d'apparence de référence dans les attentions spatiales de l'épine dorsale de diffusion tout en préservant la capacité des modules de mouvement à synthétiser des détails dynamiques fluides et complexes. Au-delà du contrôle de la pose du corps, nous relions un module de contrôle local à notre modèle pour capturer des expressions faciales désenchevêtrées de l'identité, facilitant le transfert précis des expressions pour une réalisme accru dans les scènes animées. Ensemble, ces composants forment un cadre unifié capable d'apprendre le mouvement humain physique et les dynamiques naturelles de scène à partir d'un mélange diversifié de vidéos humaines et de scène. Des évaluations qualitatives et quantitatives exhaustives démontrent que X-Dyna surpasse les méthodes de pointe, créant des animations hautement réalistes et expressives. Le code est disponible sur https://github.com/bytedance/X-Dyna.
English
We introduce X-Dyna, a novel zero-shot, diffusion-based pipeline for
animating a single human image using facial expressions and body movements
derived from a driving video, that generates realistic, context-aware dynamics
for both the subject and the surrounding environment. Building on prior
approaches centered on human pose control, X-Dyna addresses key shortcomings
causing the loss of dynamic details, enhancing the lifelike qualities of human
video animations. At the core of our approach is the Dynamics-Adapter, a
lightweight module that effectively integrates reference appearance context
into the spatial attentions of the diffusion backbone while preserving the
capacity of motion modules in synthesizing fluid and intricate dynamic details.
Beyond body pose control, we connect a local control module with our model to
capture identity-disentangled facial expressions, facilitating accurate
expression transfer for enhanced realism in animated scenes. Together, these
components form a unified framework capable of learning physical human motion
and natural scene dynamics from a diverse blend of human and scene videos.
Comprehensive qualitative and quantitative evaluations demonstrate that X-Dyna
outperforms state-of-the-art methods, creating highly lifelike and expressive
animations. The code is available at https://github.com/bytedance/X-Dyna.Summary
AI-Generated Summary