ChatPaper.aiChatPaper

DreamActor-M1: 하이브리드 가이던스를 통한 전체적이고 표현력 있으며 강건한 인간 이미지 애니메이션

DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

April 2, 2025
저자: Yuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu
cs.AI

초록

최근 이미지 기반 인간 애니메이션 방법들은 사실적인 신체 및 얼굴 움직임 합성을 달성했지만, 세밀한 전체적 제어성, 다중 스케일 적응성, 장기적 시간적 일관성 등에서 중요한 격차가 남아 있어 표현력과 견고성이 낮은 문제가 있습니다. 우리는 이러한 한계를 극복하기 위해 하이브리드 가이던스를 적용한 확산 트랜스포머(DiT) 기반 프레임워크인 DreamActor-M1을 제안합니다. 움직임 가이던스를 위해, 암묵적 얼굴 표현, 3D 헤드 구체, 3D 신체 골격을 통합한 하이브리드 제어 신호를 사용하여 얼굴 표정과 신체 움직임을 견고하게 제어하면서도 표현력이 풍부하고 정체성을 유지하는 애니메이션을 생성합니다. 스케일 적응을 위해, 초상화에서 전신 뷰까지 다양한 신체 자세와 이미지 스케일을 처리하기 위해 다양한 해상도와 스케일의 데이터를 사용한 점진적 학습 전략을 채택합니다. 외관 가이던스를 위해, 연속 프레임의 움직임 패턴과 보완적인 시각적 참조를 통합하여 복잡한 움직임 중 보이지 않는 영역에 대한 장기적 시간적 일관성을 보장합니다. 실험 결과, 우리의 방법은 초상화, 상반신, 전신 생성에서 최신 기술을 능가하며 견고한 장기적 일관성을 제공하는 표현력 있는 결과를 보여줍니다. 프로젝트 페이지: https://grisoon.github.io/DreamActor-M1/.
English
While recent image-based human animation methods achieve realistic body and facial motion synthesis, critical gaps remain in fine-grained holistic controllability, multi-scale adaptability, and long-term temporal coherence, which leads to their lower expressiveness and robustness. We propose a diffusion transformer (DiT) based framework, DreamActor-M1, with hybrid guidance to overcome these limitations. For motion guidance, our hybrid control signals that integrate implicit facial representations, 3D head spheres, and 3D body skeletons achieve robust control of facial expressions and body movements, while producing expressive and identity-preserving animations. For scale adaptation, to handle various body poses and image scales ranging from portraits to full-body views, we employ a progressive training strategy using data with varying resolutions and scales. For appearance guidance, we integrate motion patterns from sequential frames with complementary visual references, ensuring long-term temporal coherence for unseen regions during complex movements. Experiments demonstrate that our method outperforms the state-of-the-art works, delivering expressive results for portraits, upper-body, and full-body generation with robust long-term consistency. Project Page: https://grisoon.github.io/DreamActor-M1/.

Summary

AI-Generated Summary

PDF657April 3, 2025