X-Dyna: Expressieve Dynamische Menselijke Afbeeldingsanimatie
X-Dyna: Expressive Dynamic Human Image Animation
January 17, 2025
Auteurs: Di Chang, Hongyi Xu, You Xie, Yipeng Gao, Zhengfei Kuang, Shengqu Cai, Chenxu Zhang, Guoxian Song, Chao Wang, Yichun Shi, Zeyuan Chen, Shijie Zhou, Linjie Luo, Gordon Wetzstein, Mohammad Soleymani
cs.AI
Samenvatting
We introduceren X-Dyna, een innovatieve zero-shot, diffusie-gebaseerde pipeline voor het animeren van een enkele afbeelding van een mens met behulp van gezichtsuitdrukkingen en lichaamsbewegingen afgeleid van een sturende video, die realistische, contextbewuste dynamiek genereert voor zowel het onderwerp als de omgeving eromheen. Voortbouwend op eerdere benaderingen gericht op menselijke posebesturing, adresseert X-Dyna belangrijke tekortkomingen die leiden tot het verlies van dynamische details, en verbetert daarmee de levensechte kwaliteiten van menselijke video-animaties. Centraal in onze benadering staat de Dynamics-Adapter, een lichtgewicht module die referentie-uitelijk context effectief integreert in de ruimtelijke aandacht van de diffusie-backbone, terwijl de capaciteit van bewegingsmodules behouden blijft om vloeiende en complexe dynamische details te synthetiseren. Naast lichaamshoudingbesturing verbinden we een lokaal besturingsmodule met ons model om identiteit-ontwarde gezichtsuitdrukkingen vast te leggen, wat nauwkeurige overdracht van expressie mogelijk maakt voor verbeterde realisme in geanimeerde scènes. Samen vormen deze componenten een verenigd raamwerk dat in staat is fysieke menselijke beweging en natuurlijke scènedynamiek te leren van een diverse mix van menselijke en scènevideo's. Uitgebreide kwalitatieve en kwantitatieve evaluaties tonen aan dat X-Dyna beter presteert dan state-of-the-art methoden, en zeer levensechte en expressieve animaties creëert. De code is beschikbaar op https://github.com/bytedance/X-Dyna.
English
We introduce X-Dyna, a novel zero-shot, diffusion-based pipeline for
animating a single human image using facial expressions and body movements
derived from a driving video, that generates realistic, context-aware dynamics
for both the subject and the surrounding environment. Building on prior
approaches centered on human pose control, X-Dyna addresses key shortcomings
causing the loss of dynamic details, enhancing the lifelike qualities of human
video animations. At the core of our approach is the Dynamics-Adapter, a
lightweight module that effectively integrates reference appearance context
into the spatial attentions of the diffusion backbone while preserving the
capacity of motion modules in synthesizing fluid and intricate dynamic details.
Beyond body pose control, we connect a local control module with our model to
capture identity-disentangled facial expressions, facilitating accurate
expression transfer for enhanced realism in animated scenes. Together, these
components form a unified framework capable of learning physical human motion
and natural scene dynamics from a diverse blend of human and scene videos.
Comprehensive qualitative and quantitative evaluations demonstrate that X-Dyna
outperforms state-of-the-art methods, creating highly lifelike and expressive
animations. The code is available at https://github.com/bytedance/X-Dyna.Summary
AI-Generated Summary