X-Dyna: Expressieve Dynamische Menselijke Afbeeldingsanimatie

Samenvatting

We introduceren X-Dyna, een innovatieve zero-shot, diffusie-gebaseerde pipeline voor het animeren van een enkele afbeelding van een mens met behulp van gezichtsuitdrukkingen en lichaamsbewegingen afgeleid van een sturende video, die realistische, contextbewuste dynamiek genereert voor zowel het onderwerp als de omgeving eromheen. Voortbouwend op eerdere benaderingen gericht op menselijke posebesturing, adresseert X-Dyna belangrijke tekortkomingen die leiden tot het verlies van dynamische details, en verbetert daarmee de levensechte kwaliteiten van menselijke video-animaties. Centraal in onze benadering staat de Dynamics-Adapter, een lichtgewicht module die referentie-uitelijk context effectief integreert in de ruimtelijke aandacht van de diffusie-backbone, terwijl de capaciteit van bewegingsmodules behouden blijft om vloeiende en complexe dynamische details te synthetiseren. Naast lichaamshoudingbesturing verbinden we een lokaal besturingsmodule met ons model om identiteit-ontwarde gezichtsuitdrukkingen vast te leggen, wat nauwkeurige overdracht van expressie mogelijk maakt voor verbeterde realisme in geanimeerde scènes. Samen vormen deze componenten een verenigd raamwerk dat in staat is fysieke menselijke beweging en natuurlijke scènedynamiek te leren van een diverse mix van menselijke en scènevideo's. Uitgebreide kwalitatieve en kwantitatieve evaluaties tonen aan dat X-Dyna beter presteert dan state-of-the-art methoden, en zeer levensechte en expressieve animaties creëert. De code is beschikbaar op https://github.com/bytedance/X-Dyna.

English

We introduce X-Dyna, a novel zero-shot, diffusion-based pipeline for animating a single human image using facial expressions and body movements derived from a driving video, that generates realistic, context-aware dynamics for both the subject and the surrounding environment. Building on prior approaches centered on human pose control, X-Dyna addresses key shortcomings causing the loss of dynamic details, enhancing the lifelike qualities of human video animations. At the core of our approach is the Dynamics-Adapter, a lightweight module that effectively integrates reference appearance context into the spatial attentions of the diffusion backbone while preserving the capacity of motion modules in synthesizing fluid and intricate dynamic details. Beyond body pose control, we connect a local control module with our model to capture identity-disentangled facial expressions, facilitating accurate expression transfer for enhanced realism in animated scenes. Together, these components form a unified framework capable of learning physical human motion and natural scene dynamics from a diverse blend of human and scene videos. Comprehensive qualitative and quantitative evaluations demonstrate that X-Dyna outperforms state-of-the-art methods, creating highly lifelike and expressive animations. The code is available at https://github.com/bytedance/X-Dyna.

X-Dyna: Expressieve Dynamische Menselijke Afbeeldingsanimatie

X-Dyna: Expressive Dynamic Human Image Animation

Samenvatting

Support