MTVCrafter: 4D-Bewegungstokenisierung für die Animation menschlicher Bilder in offenen Welten
MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation
May 15, 2025
Autoren: Yanbo Ding, Xirui Hu, Zhizhi Guo, Yali Wang
cs.AI
Zusammenfassung
Die Animation menschlicher Bilder hat aufgrund ihrer breiten Anwendungen in digitalen Menschen zunehmend Aufmerksamkeit erlangt und sich schnell entwickelt. Bisherige Methoden stützen sich jedoch weitgehend auf 2D-renderte Pose-Bilder zur Bewegungsführung, was die Generalisierung einschränkt und wesentliche 3D-Informationen für die Animation in offenen Welten vernachlässigt. Um dieses Problem zu lösen, schlagen wir MTVCrafter (Motion Tokenization Video Crafter) vor, das erste Framework, das rohe 3D-Bewegungssequenzen (d.h. 4D-Bewegung) direkt für die Animation menschlicher Bilder modelliert. Konkret führen wir 4DMoT (4D Motion Tokenizer) ein, um 3D-Bewegungssequenzen in 4D-Bewegungs-Tokens zu quantisieren. Im Vergleich zu 2D-renderten Pose-Bildern bieten 4D-Bewegungs-Tokens robustere räumlich-zeitliche Hinweise und vermeiden eine strikte pixelgenaue Ausrichtung zwischen Pose-Bild und Charakter, was eine flexiblere und entkoppelte Steuerung ermöglicht. Anschließend führen wir MV-DiT (Motion-aware Video DiT) ein. Durch die Gestaltung einer einzigartigen Bewegungsaufmerksamkeit mit 4D-Positionskodierungen kann MV-DiT Bewegungs-Tokens effektiv als 4D-kompakten, aber ausdrucksstarken Kontext für die Animation menschlicher Bilder in der komplexen 3D-Welt nutzen. Somit markiert es einen bedeutenden Fortschritt in diesem Bereich und eröffnet eine neue Richtung für die pose-gesteuerte Erzeugung menschlicher Videos. Experimente zeigen, dass unser MTVCrafter mit einem FID-VID von 6,98 state-of-the-art Ergebnisse erzielt und den zweitbesten Ansatz um 65% übertrifft. Dank robuster Bewegungs-Tokens generalisiert MTVCrafter auch gut auf diverse Charaktere in offenen Welten (einzeln/mehrere, Ganzkörper/Halbkörper) über verschiedene Stile und Szenarien hinweg. Unsere Video-Demos und der Code sind verfügbar unter: https://github.com/DINGYANB/MTVCrafter.
English
Human image animation has gained increasing attention and developed rapidly
due to its broad applications in digital humans. However, existing methods rely
largely on 2D-rendered pose images for motion guidance, which limits
generalization and discards essential 3D information for open-world animation.
To tackle this problem, we propose MTVCrafter (Motion Tokenization Video
Crafter), the first framework that directly models raw 3D motion sequences
(i.e., 4D motion) for human image animation. Specifically, we introduce 4DMoT
(4D motion tokenizer) to quantize 3D motion sequences into 4D motion tokens.
Compared to 2D-rendered pose images, 4D motion tokens offer more robust
spatio-temporal cues and avoid strict pixel-level alignment between pose image
and character, enabling more flexible and disentangled control. Then, we
introduce MV-DiT (Motion-aware Video DiT). By designing unique motion attention
with 4D positional encodings, MV-DiT can effectively leverage motion tokens as
4D compact yet expressive context for human image animation in the complex 3D
world. Hence, it marks a significant step forward in this field and opens a new
direction for pose-guided human video generation. Experiments show that our
MTVCrafter achieves state-of-the-art results with an FID-VID of 6.98,
surpassing the second-best by 65%. Powered by robust motion tokens, MTVCrafter
also generalizes well to diverse open-world characters (single/multiple,
full/half-body) across various styles and scenarios. Our video demos and code
are on: https://github.com/DINGYANB/MTVCrafter.Summary
AI-Generated Summary