MTVCrafter: 개방형 세계 인간 이미지 애니메이션을 위한 4D 모션 토큰화
MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation
May 15, 2025
저자: Yanbo Ding, Xirui Hu, Zhizhi Guo, Yali Wang
cs.AI
초록
인간 이미지 애니메이션은 디지털 휴먼 분야에서의 광범위한 응용 가능성으로 인해 점점 더 많은 관심을 받으며 빠르게 발전하고 있습니다. 그러나 기존 방법들은 주로 2D 렌더링된 포즈 이미지에 의존하여 동작을 안내하는 방식으로, 이는 일반화를 제한하고 오픈 월드 애니메이션에 필수적인 3D 정보를 버리게 됩니다. 이 문제를 해결하기 위해, 우리는 원시 3D 동작 시퀀스(즉, 4D 동작)를 직접 모델링하는 최초의 프레임워크인 MTVCrafter(Motion Tokenization Video Crafter)를 제안합니다. 구체적으로, 우리는 4DMoT(4D motion tokenizer)를 도입하여 3D 동작 시퀀스를 4D 동작 토큰으로 양자화합니다. 2D 렌더링된 포즈 이미지와 비교했을 때, 4D 동작 토큰은 더 강력한 시공간적 단서를 제공하며 포즈 이미지와 캐릭터 간의 엄격한 픽셀 수준 정렬을 피함으로써 더 유연하고 분리된 제어를 가능하게 합니다. 다음으로, 우리는 MV-DiT(Motion-aware Video DiT)를 소개합니다. 4D 위치 인코딩을 활용한 독특한 동작 주의 메커니즘을 설계함으로써, MV-DiT는 복잡한 3D 세계에서 인간 이미지 애니메이션을 위한 4D의 간결하면서도 표현력 있는 컨텍스트로서 동작 토큰을 효과적으로 활용할 수 있습니다. 따라서 이는 이 분야에서 중요한 진전을 이루었으며, 포즈 기반 인간 비디오 생성에 새로운 방향을 제시합니다. 실험 결과, 우리의 MTVCrafter는 FID-VID 점수 6.98로 최첨단 성능을 달성하며, 두 번째로 우수한 방법보다 65% 앞서는 성과를 보였습니다. 강력한 동작 토큰의 힘을 받아, MTVCrafter는 다양한 스타일과 시나리오에서 다양한 오픈 월드 캐릭터(단일/다중, 전신/반신)에 대해 우수한 일반화 성능을 보입니다. 우리의 비디오 데모와 코드는 https://github.com/DINGYANB/MTVCrafter에서 확인할 수 있습니다.
English
Human image animation has gained increasing attention and developed rapidly
due to its broad applications in digital humans. However, existing methods rely
largely on 2D-rendered pose images for motion guidance, which limits
generalization and discards essential 3D information for open-world animation.
To tackle this problem, we propose MTVCrafter (Motion Tokenization Video
Crafter), the first framework that directly models raw 3D motion sequences
(i.e., 4D motion) for human image animation. Specifically, we introduce 4DMoT
(4D motion tokenizer) to quantize 3D motion sequences into 4D motion tokens.
Compared to 2D-rendered pose images, 4D motion tokens offer more robust
spatio-temporal cues and avoid strict pixel-level alignment between pose image
and character, enabling more flexible and disentangled control. Then, we
introduce MV-DiT (Motion-aware Video DiT). By designing unique motion attention
with 4D positional encodings, MV-DiT can effectively leverage motion tokens as
4D compact yet expressive context for human image animation in the complex 3D
world. Hence, it marks a significant step forward in this field and opens a new
direction for pose-guided human video generation. Experiments show that our
MTVCrafter achieves state-of-the-art results with an FID-VID of 6.98,
surpassing the second-best by 65%. Powered by robust motion tokens, MTVCrafter
also generalizes well to diverse open-world characters (single/multiple,
full/half-body) across various styles and scenarios. Our video demos and code
are on: https://github.com/DINGYANB/MTVCrafter.Summary
AI-Generated Summary