MTVCrafter: Tokenizzazione del Movimento 4D per l'Animazione di Immagini Umane in Mondi Aperti
MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation
May 15, 2025
Autori: Yanbo Ding, Xirui Hu, Zhizhi Guo, Yali Wang
cs.AI
Abstract
L'animazione di immagini umane ha attirato un'attenzione crescente e si è sviluppata rapidamente grazie alle sue ampie applicazioni nel campo degli esseri umani digitali. Tuttavia, i metodi esistenti si basano principalmente su immagini di pose renderizzate in 2D per la guida del movimento, il che limita la generalizzazione e trascura le informazioni 3D essenziali per l'animazione in mondi aperti. Per affrontare questo problema, proponiamo MTVCrafter (Motion Tokenization Video Crafter), il primo framework che modella direttamente sequenze di movimento 3D grezze (cioè movimento 4D) per l'animazione di immagini umane. Nello specifico, introduciamo 4DMoT (4D motion tokenizer) per quantizzare le sequenze di movimento 3D in token di movimento 4D. Rispetto alle immagini di pose renderizzate in 2D, i token di movimento 4D offrono indizi spazio-temporali più robusti ed evitano un allineamento rigoroso a livello di pixel tra l'immagine della pose e il personaggio, consentendo un controllo più flessibile e disaccoppiato. Successivamente, introduciamo MV-DiT (Motion-aware Video DiT). Progettando un'attenzione al movimento unica con codifiche posizionali 4D, MV-DiT può sfruttare efficacemente i token di movimento come contesto 4D compatto ma espressivo per l'animazione di immagini umane nel complesso mondo 3D. Pertanto, rappresenta un significativo passo avanti in questo campo e apre una nuova direzione per la generazione di video umani guidati da pose. Gli esperimenti dimostrano che il nostro MTVCrafter raggiunge risultati all'avanguardia con un FID-VID di 6.98, superando il secondo miglior metodo del 65%. Grazie ai robusti token di movimento, MTVCrafter si generalizza bene anche a personaggi diversi in mondi aperti (singoli/multipli, corpo intero/parziale) in vari stili e scenari. Le nostre demo video e il codice sono disponibili su: https://github.com/DINGYANB/MTVCrafter.
English
Human image animation has gained increasing attention and developed rapidly
due to its broad applications in digital humans. However, existing methods rely
largely on 2D-rendered pose images for motion guidance, which limits
generalization and discards essential 3D information for open-world animation.
To tackle this problem, we propose MTVCrafter (Motion Tokenization Video
Crafter), the first framework that directly models raw 3D motion sequences
(i.e., 4D motion) for human image animation. Specifically, we introduce 4DMoT
(4D motion tokenizer) to quantize 3D motion sequences into 4D motion tokens.
Compared to 2D-rendered pose images, 4D motion tokens offer more robust
spatio-temporal cues and avoid strict pixel-level alignment between pose image
and character, enabling more flexible and disentangled control. Then, we
introduce MV-DiT (Motion-aware Video DiT). By designing unique motion attention
with 4D positional encodings, MV-DiT can effectively leverage motion tokens as
4D compact yet expressive context for human image animation in the complex 3D
world. Hence, it marks a significant step forward in this field and opens a new
direction for pose-guided human video generation. Experiments show that our
MTVCrafter achieves state-of-the-art results with an FID-VID of 6.98,
surpassing the second-best by 65%. Powered by robust motion tokens, MTVCrafter
also generalizes well to diverse open-world characters (single/multiple,
full/half-body) across various styles and scenarios. Our video demos and code
are on: https://github.com/DINGYANB/MTVCrafter.