ChatPaper.aiChatPaper

DreamActor-M2:時空間インコンテクスト学習による汎用キャラクター画像アニメーション

DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

January 29, 2026
著者: Mingshuang Luo, Shuang Liang, Zhengkun Rong, Yuxuan Luo, Tianshu Hu, Ruibing Hou, Hong Chang, Yong Li, Yuan Zhang, Mingyuan Gao
cs.AI

要旨

キャラクター画像アニメーションは、駆動シーケンスからの動きを静止参照画像に転移させることで、高精細なビデオを合成することを目的とする。近年の進展にもかかわらず、既存手法は二つの根本的な課題に直面している:(1) アイデンティティ保存と動きの一貫性の間で「シーソー現象」として現れるトレードオフを生み出す、最適とは言えない動き注入戦略、(2) 複雑なダイナミクスを不十分にしか捉えられず、任意の非ヒューマノイドキャラクターへの汎化を妨げる、明示的な姿勢事前情報(例:骨格)への過度な依存である。これらの課題に対処するため、本論文では動き条件付けをインコンテキスト学習問題として再構築する普遍的なアニメーション枠組み、DreamActor-M2を提案する。我々のアプローチは二段階のパラダイムに従う。まず、参照画像の外観と動きの手がかりを統合された潜在空間に融合することで入力モダリティのギャップを橋渡しし、基盤モデルの生成的事前知識を活用して空間的アイデンティティと時間的ダイナミクスを統合的に推論できるようにする。第二に、擬似的なクロスアイデンティティ学習ペアを生成する自己ブートストラップ型データ合成パイプラインを導入し、姿勢依存の制御から直接的なエンドツーエンドのRGB駆動アニメーションへのシームレスな移行を実現する。この戦略は、多様なキャラクタータイプと動作シナリオにわたる汎化性能を大幅に強化する。包括的評価を可能にするため、我々はさらに、幅広いキャラクタータイプと動作シナリオを網羅する汎用ベンチマークAW Benchを提案する。大規模な実験により、DreamActor-M2が最高水準の性能を達成し、優れた視覚的忠実度とロバストなクロスドメイン汎化を実現することを示す。プロジェクトページ: https://grisoon.github.io/DreamActor-M2/
English
Character image animation aims to synthesize high-fidelity videos by transferring motion from a driving sequence to a static reference image. Despite recent advancements, existing methods suffer from two fundamental challenges: (1) suboptimal motion injection strategies that lead to a trade-off between identity preservation and motion consistency, manifesting as a "see-saw", and (2) an over-reliance on explicit pose priors (e.g., skeletons), which inadequately capture intricate dynamics and hinder generalization to arbitrary, non-humanoid characters. To address these challenges, we present DreamActor-M2, a universal animation framework that reimagines motion conditioning as an in-context learning problem. Our approach follows a two-stage paradigm. First, we bridge the input modality gap by fusing reference appearance and motion cues into a unified latent space, enabling the model to jointly reason about spatial identity and temporal dynamics by leveraging the generative prior of foundational models. Second, we introduce a self-bootstrapped data synthesis pipeline that curates pseudo cross-identity training pairs, facilitating a seamless transition from pose-dependent control to direct, end-to-end RGB-driven animation. This strategy significantly enhances generalization across diverse characters and motion scenarios. To facilitate comprehensive evaluation, we further introduce AW Bench, a versatile benchmark encompassing a wide spectrum of characters types and motion scenarios. Extensive experiments demonstrate that DreamActor-M2 achieves state-of-the-art performance, delivering superior visual fidelity and robust cross-domain generalization. Project Page: https://grisoon.github.io/DreamActor-M2/
PDF122February 3, 2026