MTVCrafter : Tokenisation 4D du mouvement pour l'animation d'images humaines en monde ouvert

papers.abstract

L'animation d'images humaines a suscité une attention croissante et s'est développée rapidement en raison de ses applications étendues dans les humains numériques. Cependant, les méthodes existantes reposent largement sur des images de pose rendues en 2D pour guider le mouvement, ce qui limite la généralisation et néglige les informations 3D essentielles pour l'animation dans des environnements ouverts. Pour résoudre ce problème, nous proposons MTVCrafter (Motion Tokenization Video Crafter), le premier cadre de modélisation directe de séquences de mouvement 3D brutes (c'est-à-dire le mouvement 4D) pour l'animation d'images humaines. Plus précisément, nous introduisons 4DMoT (4D motion tokenizer) pour quantifier les séquences de mouvement 3D en tokens de mouvement 4D. Comparés aux images de pose rendues en 2D, les tokens de mouvement 4D offrent des indices spatio-temporels plus robustes et évitent un alignement strict au niveau des pixels entre l'image de pose et le personnage, permettant un contrôle plus flexible et dissocié. Ensuite, nous introduisons MV-DiT (Motion-aware Video DiT). En concevant une attention au mouvement unique avec des encodages positionnels 4D, MV-DiT peut exploiter efficacement les tokens de mouvement comme contexte 4D compact mais expressif pour l'animation d'images humaines dans le monde complexe en 3D. Ainsi, cela représente une avancée significative dans ce domaine et ouvre une nouvelle direction pour la génération de vidéos humaines guidées par la pose. Les expériences montrent que notre MTVCrafter atteint des résultats de pointe avec un FID-VID de 6,98, surpassant le deuxième meilleur résultat de 65%. Grâce à des tokens de mouvement robustes, MTVCrafter généralise également bien à divers personnages dans des environnements ouverts (uniques/multiples, corps entier/demi-corps) à travers différents styles et scénarios. Nos démonstrations vidéo et notre code sont disponibles sur : https://github.com/DINGYANB/MTVCrafter.

English

Human image animation has gained increasing attention and developed rapidly due to its broad applications in digital humans. However, existing methods rely largely on 2D-rendered pose images for motion guidance, which limits generalization and discards essential 3D information for open-world animation. To tackle this problem, we propose MTVCrafter (Motion Tokenization Video Crafter), the first framework that directly models raw 3D motion sequences (i.e., 4D motion) for human image animation. Specifically, we introduce 4DMoT (4D motion tokenizer) to quantize 3D motion sequences into 4D motion tokens. Compared to 2D-rendered pose images, 4D motion tokens offer more robust spatio-temporal cues and avoid strict pixel-level alignment between pose image and character, enabling more flexible and disentangled control. Then, we introduce MV-DiT (Motion-aware Video DiT). By designing unique motion attention with 4D positional encodings, MV-DiT can effectively leverage motion tokens as 4D compact yet expressive context for human image animation in the complex 3D world. Hence, it marks a significant step forward in this field and opens a new direction for pose-guided human video generation. Experiments show that our MTVCrafter achieves state-of-the-art results with an FID-VID of 6.98, surpassing the second-best by 65%. Powered by robust motion tokens, MTVCrafter also generalizes well to diverse open-world characters (single/multiple, full/half-body) across various styles and scenarios. Our video demos and code are on: https://github.com/DINGYANB/MTVCrafter.

MTVCrafter : Tokenisation 4D du mouvement pour l'animation d'images humaines en monde ouvert

MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation

papers.abstract

Support