ChatPaper.aiChatPaper

DreamActor-M2: Универсальная анимация персонажных изображений посредством пространственно-временного ин-контекстного обучения

DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

January 29, 2026
Авторы: Mingshuang Luo, Shuang Liang, Zhengkun Rong, Yuxuan Luo, Tianshu Hu, Ruibing Hou, Hong Chang, Yong Li, Yuan Zhang, Mingyuan Gao
cs.AI

Аннотация

Анимация изображений персонажей ставит целью синтез высококачественных видео путем переноса движения из управляющей последовательности на статическое референсное изображение. Несмотря на недавние достижения, существующие методы страдают от двух фундаментальных проблем: (1) субоптимальные стратегии внедрения движения, приводящие к компромиссу между сохранением идентичности и соответствием движению, что проявляется в виде "качелей", и (2) чрезмерная зависимость от явных позных priors (например, скелетов), которые недостаточно точно capture сложную динамику и препятствуют обобщению на произвольных не-гуманоидных персонажей. Для решения этих проблем мы представляем DreamActor-M2 — универсальную framework анимации, которая переосмысливает conditioning движения как задачу in-context обучения. Наш подход следует двухэтапной парадигме. Сначала мы устраняем разрыв входных модальностей путем fusion референсной внешности и motion cues в единое латентное пространство, что позволяет модели совместно анализировать пространственную идентичность и временную динамику, используя генеративный prior фундаментальных models. Во-вторых, мы представляем self-bootstrapped pipeline синтеза данных, который курирует псевдопары для обучения с кросс-идентичностью, обеспечивая плавный переход от позозависимого управления к прямой, end-to-end RGB-управляемой анимации. Эта стратегия значительно улучшает обобщение для разнообразных персонажей и сценариев движения. Для комплексной оценки мы также представляем AW Bench — универсальный benchmark, охватывающий широкий спектр типов персонажей и сценариев движения. Многочисленные эксперименты демонстрируют, что DreamActor-M2 достигает state-of-the-art производительности, обеспечивая превосходное визуальное качество и robust кросс-доменное обобщение. Страница проекта: https://grisoon.github.io/DreamActor-M2/
English
Character image animation aims to synthesize high-fidelity videos by transferring motion from a driving sequence to a static reference image. Despite recent advancements, existing methods suffer from two fundamental challenges: (1) suboptimal motion injection strategies that lead to a trade-off between identity preservation and motion consistency, manifesting as a "see-saw", and (2) an over-reliance on explicit pose priors (e.g., skeletons), which inadequately capture intricate dynamics and hinder generalization to arbitrary, non-humanoid characters. To address these challenges, we present DreamActor-M2, a universal animation framework that reimagines motion conditioning as an in-context learning problem. Our approach follows a two-stage paradigm. First, we bridge the input modality gap by fusing reference appearance and motion cues into a unified latent space, enabling the model to jointly reason about spatial identity and temporal dynamics by leveraging the generative prior of foundational models. Second, we introduce a self-bootstrapped data synthesis pipeline that curates pseudo cross-identity training pairs, facilitating a seamless transition from pose-dependent control to direct, end-to-end RGB-driven animation. This strategy significantly enhances generalization across diverse characters and motion scenarios. To facilitate comprehensive evaluation, we further introduce AW Bench, a versatile benchmark encompassing a wide spectrum of characters types and motion scenarios. Extensive experiments demonstrate that DreamActor-M2 achieves state-of-the-art performance, delivering superior visual fidelity and robust cross-domain generalization. Project Page: https://grisoon.github.io/DreamActor-M2/
PDF122February 3, 2026