DreamActor-M2: Animazione Universale di Immagini di Personaggi tramite Apprendimento In-Contesto Spazio-Temporale

Abstract

L'animazione di immagini di personaggi mira a sintetizzare video ad alta fedeltà trasferendo il movimento da una sequenza guida a un'immagine di riferimento statica. Nonostante i recenti progressi, i metodi esistenti presentano due sfide fondamentali: (1) strategie di iniezione del movimento subottimali che portano a un compromesso tra conservazione dell'identità e coerenza del movimento, manifestandosi come un "altalena", e (2) un'eccessiva dipendenza da priori di posa espliciti (ad esempio, scheletri), che catturano in modo inadeguato le dinamiche intricate e ostacolano la generalizzazione a personaggi arbitrari e non umanoidi. Per affrontare queste sfide, presentiamo DreamActor-M2, un framework di animazione universale che re-immagina il condizionamento del movimento come un problema di apprendimento in contesto. Il nostro approccio segue un paradigma a due stadi. In primo luogo, colmiamo il divario di modalità di input fondendo l'aspetto di riferimento e i segnali di movimento in uno spazio latente unificato, consentendo al modello di ragionare congiuntamente sull'identità spaziale e le dinamiche temporali sfruttando il priori generativo dei modelli fondazionali. In secondo luogo, introduciamo una pipeline di sintesi dei dati auto-avviata che seleziona coppie di addestramento pseudo cross-identità, facilitando una transizione senza soluzione di continuità dal controllo dipendente dalla posa all'animazione RGB diretta e end-to-end. Questa strategia migliora significativamente la generalizzazione attraverso diversi personaggi e scenari di movimento. Per facilitare una valutazione completa, introduciamo inoltre AW Bench, un benchmark versatile che comprende un'ampia gamma di tipi di personaggi e scenari di movimento. Esperimenti estensivi dimostrano che DreamActor-M2 raggiunge prestazioni all'avanguardia, offrendo una fedeltà visiva superiore e una robusta generalizzazione cross-dominio. Pagina del progetto: https://grisoon.github.io/DreamActor-M2/

English

Character image animation aims to synthesize high-fidelity videos by transferring motion from a driving sequence to a static reference image. Despite recent advancements, existing methods suffer from two fundamental challenges: (1) suboptimal motion injection strategies that lead to a trade-off between identity preservation and motion consistency, manifesting as a "see-saw", and (2) an over-reliance on explicit pose priors (e.g., skeletons), which inadequately capture intricate dynamics and hinder generalization to arbitrary, non-humanoid characters. To address these challenges, we present DreamActor-M2, a universal animation framework that reimagines motion conditioning as an in-context learning problem. Our approach follows a two-stage paradigm. First, we bridge the input modality gap by fusing reference appearance and motion cues into a unified latent space, enabling the model to jointly reason about spatial identity and temporal dynamics by leveraging the generative prior of foundational models. Second, we introduce a self-bootstrapped data synthesis pipeline that curates pseudo cross-identity training pairs, facilitating a seamless transition from pose-dependent control to direct, end-to-end RGB-driven animation. This strategy significantly enhances generalization across diverse characters and motion scenarios. To facilitate comprehensive evaluation, we further introduce AW Bench, a versatile benchmark encompassing a wide spectrum of characters types and motion scenarios. Extensive experiments demonstrate that DreamActor-M2 achieves state-of-the-art performance, delivering superior visual fidelity and robust cross-domain generalization. Project Page: https://grisoon.github.io/DreamActor-M2/

DreamActor-M2: Animazione Universale di Immagini di Personaggi tramite Apprendimento In-Contesto Spazio-Temporale

DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

Abstract

Support