MTVCrafter : Tokenisation 4D du mouvement pour l'animation d'images humaines en monde ouvert
MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation
May 15, 2025
Auteurs: Yanbo Ding, Xirui Hu, Zhizhi Guo, Yali Wang
cs.AI
Résumé
L'animation d'images humaines a suscité une attention croissante et s'est développée rapidement en raison de ses applications étendues dans les humains numériques. Cependant, les méthodes existantes reposent largement sur des images de pose rendues en 2D pour guider le mouvement, ce qui limite la généralisation et néglige les informations 3D essentielles pour l'animation dans des environnements ouverts. Pour résoudre ce problème, nous proposons MTVCrafter (Motion Tokenization Video Crafter), le premier cadre de modélisation directe de séquences de mouvement 3D brutes (c'est-à-dire le mouvement 4D) pour l'animation d'images humaines. Plus précisément, nous introduisons 4DMoT (4D motion tokenizer) pour quantifier les séquences de mouvement 3D en tokens de mouvement 4D. Comparés aux images de pose rendues en 2D, les tokens de mouvement 4D offrent des indices spatio-temporels plus robustes et évitent un alignement strict au niveau des pixels entre l'image de pose et le personnage, permettant un contrôle plus flexible et dissocié. Ensuite, nous introduisons MV-DiT (Motion-aware Video DiT). En concevant une attention au mouvement unique avec des encodages positionnels 4D, MV-DiT peut exploiter efficacement les tokens de mouvement comme contexte 4D compact mais expressif pour l'animation d'images humaines dans le monde complexe en 3D. Ainsi, cela représente une avancée significative dans ce domaine et ouvre une nouvelle direction pour la génération de vidéos humaines guidées par la pose. Les expériences montrent que notre MTVCrafter atteint des résultats de pointe avec un FID-VID de 6,98, surpassant le deuxième meilleur résultat de 65%. Grâce à des tokens de mouvement robustes, MTVCrafter généralise également bien à divers personnages dans des environnements ouverts (uniques/multiples, corps entier/demi-corps) à travers différents styles et scénarios. Nos démonstrations vidéo et notre code sont disponibles sur : https://github.com/DINGYANB/MTVCrafter.
English
Human image animation has gained increasing attention and developed rapidly
due to its broad applications in digital humans. However, existing methods rely
largely on 2D-rendered pose images for motion guidance, which limits
generalization and discards essential 3D information for open-world animation.
To tackle this problem, we propose MTVCrafter (Motion Tokenization Video
Crafter), the first framework that directly models raw 3D motion sequences
(i.e., 4D motion) for human image animation. Specifically, we introduce 4DMoT
(4D motion tokenizer) to quantize 3D motion sequences into 4D motion tokens.
Compared to 2D-rendered pose images, 4D motion tokens offer more robust
spatio-temporal cues and avoid strict pixel-level alignment between pose image
and character, enabling more flexible and disentangled control. Then, we
introduce MV-DiT (Motion-aware Video DiT). By designing unique motion attention
with 4D positional encodings, MV-DiT can effectively leverage motion tokens as
4D compact yet expressive context for human image animation in the complex 3D
world. Hence, it marks a significant step forward in this field and opens a new
direction for pose-guided human video generation. Experiments show that our
MTVCrafter achieves state-of-the-art results with an FID-VID of 6.98,
surpassing the second-best by 65%. Powered by robust motion tokens, MTVCrafter
also generalizes well to diverse open-world characters (single/multiple,
full/half-body) across various styles and scenarios. Our video demos and code
are on: https://github.com/DINGYANB/MTVCrafter.Summary
AI-Generated Summary