ChatPaper.aiChatPaper

X-Dyna : Animation expressive dynamique d'images humaines

X-Dyna: Expressive Dynamic Human Image Animation

January 17, 2025
Auteurs: Di Chang, Hongyi Xu, You Xie, Yipeng Gao, Zhengfei Kuang, Shengqu Cai, Chenxu Zhang, Guoxian Song, Chao Wang, Yichun Shi, Zeyuan Chen, Shijie Zhou, Linjie Luo, Gordon Wetzstein, Mohammad Soleymani
cs.AI

Résumé

Nous présentons X-Dyna, un nouveau pipeline à base de diffusion zéro-shot pour animer une seule image humaine en utilisant des expressions faciales et des mouvements corporels dérivés d'une vidéo de référence, qui génère des dynamiques réalistes et contextuellement adaptées à la fois pour le sujet et l'environnement environnant. S'appuyant sur des approches antérieures centrées sur le contrôle de la pose humaine, X-Dyna aborde les lacunes clés entraînant la perte de détails dynamiques, améliorant ainsi les qualités réalistes des animations vidéo humaines. Au cœur de notre approche se trouve le Dynamics-Adapter, un module léger qui intègre efficacement le contexte d'apparence de référence dans les attentions spatiales de l'épine dorsale de diffusion tout en préservant la capacité des modules de mouvement à synthétiser des détails dynamiques fluides et complexes. Au-delà du contrôle de la pose du corps, nous relions un module de contrôle local à notre modèle pour capturer des expressions faciales désenchevêtrées de l'identité, facilitant le transfert précis des expressions pour une réalisme accru dans les scènes animées. Ensemble, ces composants forment un cadre unifié capable d'apprendre le mouvement humain physique et les dynamiques naturelles de scène à partir d'un mélange diversifié de vidéos humaines et de scène. Des évaluations qualitatives et quantitatives exhaustives démontrent que X-Dyna surpasse les méthodes de pointe, créant des animations hautement réalistes et expressives. Le code est disponible sur https://github.com/bytedance/X-Dyna.
English
We introduce X-Dyna, a novel zero-shot, diffusion-based pipeline for animating a single human image using facial expressions and body movements derived from a driving video, that generates realistic, context-aware dynamics for both the subject and the surrounding environment. Building on prior approaches centered on human pose control, X-Dyna addresses key shortcomings causing the loss of dynamic details, enhancing the lifelike qualities of human video animations. At the core of our approach is the Dynamics-Adapter, a lightweight module that effectively integrates reference appearance context into the spatial attentions of the diffusion backbone while preserving the capacity of motion modules in synthesizing fluid and intricate dynamic details. Beyond body pose control, we connect a local control module with our model to capture identity-disentangled facial expressions, facilitating accurate expression transfer for enhanced realism in animated scenes. Together, these components form a unified framework capable of learning physical human motion and natural scene dynamics from a diverse blend of human and scene videos. Comprehensive qualitative and quantitative evaluations demonstrate that X-Dyna outperforms state-of-the-art methods, creating highly lifelike and expressive animations. The code is available at https://github.com/bytedance/X-Dyna.

Summary

AI-Generated Summary

PDF142January 20, 2025