ChatPaper.aiChatPaper

MTVCrafter: Tokenização de Movimento 4D para Animação de Imagens Humanas em Mundo Aberto

MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation

May 15, 2025
Autores: Yanbo Ding, Xirui Hu, Zhizhi Guo, Yali Wang
cs.AI

Resumo

A animação de imagens humanas tem ganhado crescente atenção e se desenvolvido rapidamente devido às suas amplas aplicações em humanos digitais. No entanto, os métodos existentes dependem em grande parte de imagens de poses renderizadas em 2D para orientação de movimento, o que limita a generalização e descarta informações essenciais em 3D para animação em mundos abertos. Para resolver esse problema, propomos o MTVCrafter (Motion Tokenization Video Crafter), o primeiro framework que modela diretamente sequências de movimento 3D brutas (ou seja, movimento 4D) para animação de imagens humanas. Especificamente, introduzimos o 4DMoT (4D motion tokenizer) para quantizar sequências de movimento 3D em tokens de movimento 4D. Em comparação com imagens de poses renderizadas em 2D, os tokens de movimento 4D oferecem pistas espaço-temporais mais robustas e evitam o alinhamento rigoroso em nível de pixel entre a imagem da pose e o personagem, permitindo um controle mais flexível e desacoplado. Em seguida, introduzimos o MV-DiT (Motion-aware Video DiT). Ao projetar uma atenção de movimento única com codificações posicionais 4D, o MV-DiT pode efetivamente aproveitar os tokens de movimento como contexto 4D compacto, porém expressivo, para animação de imagens humanas no complexo mundo 3D. Assim, ele representa um avanço significativo nesse campo e abre uma nova direção para a geração de vídeos humanos guiados por poses. Experimentos mostram que o nosso MTVCrafter alcança resultados de última geração com um FID-VID de 6,98, superando o segundo melhor em 65%. Alimentado por tokens de movimento robustos, o MTVCrafter também generaliza bem para diversos personagens de mundos abertos (simples/múltiplos, corpo inteiro/meio corpo) em vários estilos e cenários. Nossos vídeos de demonstração e código estão disponíveis em: https://github.com/DINGYANB/MTVCrafter.
English
Human image animation has gained increasing attention and developed rapidly due to its broad applications in digital humans. However, existing methods rely largely on 2D-rendered pose images for motion guidance, which limits generalization and discards essential 3D information for open-world animation. To tackle this problem, we propose MTVCrafter (Motion Tokenization Video Crafter), the first framework that directly models raw 3D motion sequences (i.e., 4D motion) for human image animation. Specifically, we introduce 4DMoT (4D motion tokenizer) to quantize 3D motion sequences into 4D motion tokens. Compared to 2D-rendered pose images, 4D motion tokens offer more robust spatio-temporal cues and avoid strict pixel-level alignment between pose image and character, enabling more flexible and disentangled control. Then, we introduce MV-DiT (Motion-aware Video DiT). By designing unique motion attention with 4D positional encodings, MV-DiT can effectively leverage motion tokens as 4D compact yet expressive context for human image animation in the complex 3D world. Hence, it marks a significant step forward in this field and opens a new direction for pose-guided human video generation. Experiments show that our MTVCrafter achieves state-of-the-art results with an FID-VID of 6.98, surpassing the second-best by 65%. Powered by robust motion tokens, MTVCrafter also generalizes well to diverse open-world characters (single/multiple, full/half-body) across various styles and scenarios. Our video demos and code are on: https://github.com/DINGYANB/MTVCrafter.
PDF102May 20, 2025