MTVCrafter: 4D Bewegingstokenisatie voor Open-Wereld Menselijke Beeldanimatie
MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation
May 15, 2025
Auteurs: Yanbo Ding, Xirui Hu, Zhizhi Guo, Yali Wang
cs.AI
Samenvatting
Het animeren van menselijke beelden heeft steeds meer aandacht gekregen en zich snel ontwikkeld vanwege de brede toepassingen in digitale mensen. Bestaande methoden vertrouwen echter grotendeels op 2D-gerenderde posebeelden voor bewegingsbegeleiding, wat de generalisatie beperkt en essentiële 3D-informatie voor animatie in de open wereld verwaarloost. Om dit probleem aan te pakken, stellen we MTVCrafter (Motion Tokenization Video Crafter) voor, het eerste framework dat direct ruwe 3D-bewegingssequenties (d.w.z. 4D-beweging) modelleert voor het animeren van menselijke beelden. Specifiek introduceren we 4DMoT (4D motion tokenizer) om 3D-bewegingssequenties te kwantiseren in 4D-bewegingstokens. In vergelijking met 2D-gerenderde posebeelden bieden 4D-bewegingstokens robuustere ruimtelijk-temporele aanwijzingen en vermijden ze strikte pixel-nauwkeurige uitlijning tussen posebeeld en karakter, wat flexibelere en ontvlochten controle mogelijk maakt. Vervolgens introduceren we MV-DiT (Motion-aware Video DiT). Door unieke bewegingsobjectie te ontwerpen met 4D-positionele coderingen, kan MV-DiT effectief gebruikmaken van bewegings-tokens als 4D compacte maar expressieve context voor het animeren van menselijke beelden in de complexe 3D-wereld. Het markeert dus een belangrijke stap voorwaarts in dit veld en opent een nieuwe richting voor pose-gestuurde menselijke videogeneratie. Experimenten tonen aan dat onze MTVCrafter state-of-the-art resultaten behaalt met een FID-VID van 6,98, wat de op één na beste methode met 65% overtreft. Aangedreven door robuuste bewegings-tokens, generaliseert MTVCrafter ook goed naar diverse open-wereld karakters (enkel/meervoudig, volledig/halflichaam) in verschillende stijlen en scenario's. Onze videodemo's en code zijn te vinden op: https://github.com/DINGYANB/MTVCrafter.
English
Human image animation has gained increasing attention and developed rapidly
due to its broad applications in digital humans. However, existing methods rely
largely on 2D-rendered pose images for motion guidance, which limits
generalization and discards essential 3D information for open-world animation.
To tackle this problem, we propose MTVCrafter (Motion Tokenization Video
Crafter), the first framework that directly models raw 3D motion sequences
(i.e., 4D motion) for human image animation. Specifically, we introduce 4DMoT
(4D motion tokenizer) to quantize 3D motion sequences into 4D motion tokens.
Compared to 2D-rendered pose images, 4D motion tokens offer more robust
spatio-temporal cues and avoid strict pixel-level alignment between pose image
and character, enabling more flexible and disentangled control. Then, we
introduce MV-DiT (Motion-aware Video DiT). By designing unique motion attention
with 4D positional encodings, MV-DiT can effectively leverage motion tokens as
4D compact yet expressive context for human image animation in the complex 3D
world. Hence, it marks a significant step forward in this field and opens a new
direction for pose-guided human video generation. Experiments show that our
MTVCrafter achieves state-of-the-art results with an FID-VID of 6.98,
surpassing the second-best by 65%. Powered by robust motion tokens, MTVCrafter
also generalizes well to diverse open-world characters (single/multiple,
full/half-body) across various styles and scenarios. Our video demos and code
are on: https://github.com/DINGYANB/MTVCrafter.Summary
AI-Generated Summary