MTVCrafter: 4D Bewegingstokenisatie voor Open-Wereld Menselijke Beeldanimatie

Samenvatting

Het animeren van menselijke beelden heeft steeds meer aandacht gekregen en zich snel ontwikkeld vanwege de brede toepassingen in digitale mensen. Bestaande methoden vertrouwen echter grotendeels op 2D-gerenderde posebeelden voor bewegingsbegeleiding, wat de generalisatie beperkt en essentiële 3D-informatie voor animatie in de open wereld verwaarloost. Om dit probleem aan te pakken, stellen we MTVCrafter (Motion Tokenization Video Crafter) voor, het eerste framework dat direct ruwe 3D-bewegingssequenties (d.w.z. 4D-beweging) modelleert voor het animeren van menselijke beelden. Specifiek introduceren we 4DMoT (4D motion tokenizer) om 3D-bewegingssequenties te kwantiseren in 4D-bewegingstokens. In vergelijking met 2D-gerenderde posebeelden bieden 4D-bewegingstokens robuustere ruimtelijk-temporele aanwijzingen en vermijden ze strikte pixel-nauwkeurige uitlijning tussen posebeeld en karakter, wat flexibelere en ontvlochten controle mogelijk maakt. Vervolgens introduceren we MV-DiT (Motion-aware Video DiT). Door unieke bewegingsobjectie te ontwerpen met 4D-positionele coderingen, kan MV-DiT effectief gebruikmaken van bewegings-tokens als 4D compacte maar expressieve context voor het animeren van menselijke beelden in de complexe 3D-wereld. Het markeert dus een belangrijke stap voorwaarts in dit veld en opent een nieuwe richting voor pose-gestuurde menselijke videogeneratie. Experimenten tonen aan dat onze MTVCrafter state-of-the-art resultaten behaalt met een FID-VID van 6,98, wat de op één na beste methode met 65% overtreft. Aangedreven door robuuste bewegings-tokens, generaliseert MTVCrafter ook goed naar diverse open-wereld karakters (enkel/meervoudig, volledig/halflichaam) in verschillende stijlen en scenario's. Onze videodemo's en code zijn te vinden op: https://github.com/DINGYANB/MTVCrafter.

English

Human image animation has gained increasing attention and developed rapidly due to its broad applications in digital humans. However, existing methods rely largely on 2D-rendered pose images for motion guidance, which limits generalization and discards essential 3D information for open-world animation. To tackle this problem, we propose MTVCrafter (Motion Tokenization Video Crafter), the first framework that directly models raw 3D motion sequences (i.e., 4D motion) for human image animation. Specifically, we introduce 4DMoT (4D motion tokenizer) to quantize 3D motion sequences into 4D motion tokens. Compared to 2D-rendered pose images, 4D motion tokens offer more robust spatio-temporal cues and avoid strict pixel-level alignment between pose image and character, enabling more flexible and disentangled control. Then, we introduce MV-DiT (Motion-aware Video DiT). By designing unique motion attention with 4D positional encodings, MV-DiT can effectively leverage motion tokens as 4D compact yet expressive context for human image animation in the complex 3D world. Hence, it marks a significant step forward in this field and opens a new direction for pose-guided human video generation. Experiments show that our MTVCrafter achieves state-of-the-art results with an FID-VID of 6.98, surpassing the second-best by 65%. Powered by robust motion tokens, MTVCrafter also generalizes well to diverse open-world characters (single/multiple, full/half-body) across various styles and scenarios. Our video demos and code are on: https://github.com/DINGYANB/MTVCrafter.

MTVCrafter: 4D Bewegingstokenisatie voor Open-Wereld Menselijke Beeldanimatie

MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation

Samenvatting

Summary

Support

Support