DreamActor-M2: Universele Karakterbeeldanimatie via Spatiotemporeel In-Context Leren

Samenvatting

Karakterbeeldanimatie heeft als doel hoogfideliteitsvideo's te synthetiseren door beweging uit een bewegende sequentie over te dragen naar een statische referentieafbeelding. Ondanks recente vooruitgang kampen bestaande methoden met twee fundamentele uitdagingen: (1) suboptimale strategieën voor beweginginjectie die leiden tot een afweging tussen identiteitsbehoud en bewegingconsistentie, wat zich uit als een wip-effect, en (2) een overmatige afhankelijkheid van expliciete pose-priors (bijvoorbeeld skeletten), die complexe dynamiek onvoldoende vastleggen en de generalisatie naar willekeurige, niet-humanoid karakters belemmeren. Om deze uitdagingen aan te pakken, presenteren we DreamActor-M2, een universeel animatieraamwerk dat motion conditioning herdefinieert als een in-context leerprobleem. Onze aanpak volgt een tweefasenparadigma. Eerst overbruggen we de inputmodaliteitskloof door referentie-uiterlijk en bewegingssignalen te fuseren in een verenigde latente ruimte, waardoor het model gezamenlijk kan redeneren over ruimtelijke identiteit en temporele dynamiek door gebruik te maken van de generatieve prior van foundation-modellen. Ten tweede introduceren we een zelf-gestart data-synthesepijplijn die pseudo cross-identiteit trainingsparen samenstelt, wat een naadloze overgang mogelijk maakt van pose-afhankelijke controle naar directe, end-to-end RGB-gestuurde animatie. Deze strategie verbetert de generalisatie over diverse karakters en bewegingsscenario's aanzienlijk. Om een uitgebreide evaluatie te vergemakkelijken, introduceren we verder AW Bench, een veelzijdige benchmark die een breed spectrum aan karaktertypes en bewegingsscenario's omvat. Uitgebreide experimenten tonen aan dat DreamActor-M2 state-of-the-art prestaties bereikt, met superieure visuele kwaliteit en robuuste cross-domein generalisatie. Projectpagina: https://grisoon.github.io/DreamActor-M2/

English

Character image animation aims to synthesize high-fidelity videos by transferring motion from a driving sequence to a static reference image. Despite recent advancements, existing methods suffer from two fundamental challenges: (1) suboptimal motion injection strategies that lead to a trade-off between identity preservation and motion consistency, manifesting as a "see-saw", and (2) an over-reliance on explicit pose priors (e.g., skeletons), which inadequately capture intricate dynamics and hinder generalization to arbitrary, non-humanoid characters. To address these challenges, we present DreamActor-M2, a universal animation framework that reimagines motion conditioning as an in-context learning problem. Our approach follows a two-stage paradigm. First, we bridge the input modality gap by fusing reference appearance and motion cues into a unified latent space, enabling the model to jointly reason about spatial identity and temporal dynamics by leveraging the generative prior of foundational models. Second, we introduce a self-bootstrapped data synthesis pipeline that curates pseudo cross-identity training pairs, facilitating a seamless transition from pose-dependent control to direct, end-to-end RGB-driven animation. This strategy significantly enhances generalization across diverse characters and motion scenarios. To facilitate comprehensive evaluation, we further introduce AW Bench, a versatile benchmark encompassing a wide spectrum of characters types and motion scenarios. Extensive experiments demonstrate that DreamActor-M2 achieves state-of-the-art performance, delivering superior visual fidelity and robust cross-domain generalization. Project Page: https://grisoon.github.io/DreamActor-M2/

DreamActor-M2: Universele Karakterbeeldanimatie via Spatiotemporeel In-Context Leren

DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

Samenvatting

Support