MTVCrafter: Токенизация 4D-движений для анимации изображений человека в открытом мире
MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation
May 15, 2025
Авторы: Yanbo Ding, Xirui Hu, Zhizhi Guo, Yali Wang
cs.AI
Аннотация
Анимация изображений человека привлекает все больше внимания и стремительно развивается благодаря широкому применению в цифровых людях. Однако существующие методы в значительной степени полагаются на 2D-рендеренные изображения поз для управления движением, что ограничивает обобщаемость и игнорирует важную 3D-информацию для анимации в открытом мире. Чтобы решить эту проблему, мы предлагаем MTVCrafter (Motion Tokenization Video Crafter) — первую структуру, которая непосредственно моделирует сырые 3D-последовательности движений (т.е. 4D-движения) для анимации изображений человека. В частности, мы вводим 4DMoT (4D motion tokenizer) для квантования 3D-последовательностей движений в 4D-токены движений. По сравнению с 2D-рендеренными изображениями поз, 4D-токены движений предоставляют более надежные пространственно-временные подсказки и избегают строгого пиксельного выравнивания между изображением позы и персонажем, обеспечивая более гибкий и разделенный контроль. Затем мы представляем MV-DiT (Motion-aware Video DiT). Благодаря уникальному механизму внимания к движению с 4D-позиционным кодированием, MV-DiT может эффективно использовать токены движений как компактный, но выразительный 4D-контекст для анимации изображений человека в сложном 3D-мире. Таким образом, это знаменует значительный шаг вперед в этой области и открывает новое направление для генерации видео человека, управляемой позами. Эксперименты показывают, что наш MTVCrafter достигает передовых результатов с FID-VID 6.98, превосходя второй лучший результат на 65%. Благодаря надежным токенам движений, MTVCrafter также хорошо обобщается на разнообразных персонажей открытого мира (одиночные/множественные, полное/половинное тело) в различных стилях и сценариях. Наши видео-демонстрации и код доступны по адресу: https://github.com/DINGYANB/MTVCrafter.
English
Human image animation has gained increasing attention and developed rapidly
due to its broad applications in digital humans. However, existing methods rely
largely on 2D-rendered pose images for motion guidance, which limits
generalization and discards essential 3D information for open-world animation.
To tackle this problem, we propose MTVCrafter (Motion Tokenization Video
Crafter), the first framework that directly models raw 3D motion sequences
(i.e., 4D motion) for human image animation. Specifically, we introduce 4DMoT
(4D motion tokenizer) to quantize 3D motion sequences into 4D motion tokens.
Compared to 2D-rendered pose images, 4D motion tokens offer more robust
spatio-temporal cues and avoid strict pixel-level alignment between pose image
and character, enabling more flexible and disentangled control. Then, we
introduce MV-DiT (Motion-aware Video DiT). By designing unique motion attention
with 4D positional encodings, MV-DiT can effectively leverage motion tokens as
4D compact yet expressive context for human image animation in the complex 3D
world. Hence, it marks a significant step forward in this field and opens a new
direction for pose-guided human video generation. Experiments show that our
MTVCrafter achieves state-of-the-art results with an FID-VID of 6.98,
surpassing the second-best by 65%. Powered by robust motion tokens, MTVCrafter
also generalizes well to diverse open-world characters (single/multiple,
full/half-body) across various styles and scenarios. Our video demos and code
are on: https://github.com/DINGYANB/MTVCrafter.Summary
AI-Generated Summary