DreamActor-M2: 시공간 인-컨텍스트 학습을 통한 범용 캐릭터 이미지 애니메이션
DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning
January 29, 2026
저자: Mingshuang Luo, Shuang Liang, Zhengkun Rong, Yuxuan Luo, Tianshu Hu, Ruibing Hou, Hong Chang, Yong Li, Yuan Zhang, Mingyuan Gao
cs.AI
초록
캐릭터 이미지 애니메이션은 구동 영상의 동작을 정적 참조 이미지에 전달하여 높은 충실도의 비디오를 합성하는 것을 목표로 합니다. 최근 발전에도 불구하고, 기존 방법들은 두 가지 근본적인 문제점을 안고 있습니다: (1) 정체성 보존과 동작 일관성 사이의 트레이드오프("시소 현상")를 초래하는 최적이 아닌 동작 주입 전략, (2) 미세한 역동성을 충분히 포착하지 못하고 임의의 비인간형 캐릭터로의 일반화를 방해하는 명시적 자세 프라이어(예: 골격)에 대한 과도한 의존. 이러한 문제를 해결하기 위해 우리는 동작 조건 설정을 컨텍스트 내 학습 문제로 재구성하는 범용 애니메이션 프레임워크인 DreamActor-M2를 제안합니다. 우리의 접근 방식은 두 단계 패러다임을 따릅니다. 먼저, 참조 외관과 동작 신호를 통합된 잠재 공간에 융합하여 입력 양식 간 격차를 해소함으로써 모델이 기초 모델의 생성적 프라이어를 활용하여 공간적 정체성과 시간적 역학을 공동으로 추론할 수 있게 합니다. 둘째, 의사 교차 정체성 학습 데이터 쌍을 구성하는 자체 부트스트랩 데이터 합성 파이프라인을 도입하여 자세 의존적 제어에서 직접적인 엔드투엔드 RGB 기반 애니메이션으로의 원활한 전환을 가능하게 합니다. 이 전략은 다양한 캐릭터와 동작 시나리오에서의 일반화를 크게 향상시킵니다. 포괄적인 평가를 위해 우리는 다양한 캐릭터 유형과 동작 시나리오를 포함하는 다목적 벤치마크인 AW Bench를 추가로 소개합니다. 광범위한 실험을 통해 DreamActor-M2가 최첨단 성능을 달성하며 우수한 시각적 충실도와 강력한 크로스도메인 일반화 능력을 제공함을 입증합니다. 프로젝트 페이지: https://grisoon.github.io/DreamActor-M2/
English
Character image animation aims to synthesize high-fidelity videos by transferring motion from a driving sequence to a static reference image. Despite recent advancements, existing methods suffer from two fundamental challenges: (1) suboptimal motion injection strategies that lead to a trade-off between identity preservation and motion consistency, manifesting as a "see-saw", and (2) an over-reliance on explicit pose priors (e.g., skeletons), which inadequately capture intricate dynamics and hinder generalization to arbitrary, non-humanoid characters. To address these challenges, we present DreamActor-M2, a universal animation framework that reimagines motion conditioning as an in-context learning problem. Our approach follows a two-stage paradigm. First, we bridge the input modality gap by fusing reference appearance and motion cues into a unified latent space, enabling the model to jointly reason about spatial identity and temporal dynamics by leveraging the generative prior of foundational models. Second, we introduce a self-bootstrapped data synthesis pipeline that curates pseudo cross-identity training pairs, facilitating a seamless transition from pose-dependent control to direct, end-to-end RGB-driven animation. This strategy significantly enhances generalization across diverse characters and motion scenarios. To facilitate comprehensive evaluation, we further introduce AW Bench, a versatile benchmark encompassing a wide spectrum of characters types and motion scenarios. Extensive experiments demonstrate that DreamActor-M2 achieves state-of-the-art performance, delivering superior visual fidelity and robust cross-domain generalization. Project Page: https://grisoon.github.io/DreamActor-M2/