MTVCrafter: Tokenización de movimiento 4D para animación de imágenes humanas en entornos de mundo abierto
MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation
May 15, 2025
Autores: Yanbo Ding, Xirui Hu, Zhizhi Guo, Yali Wang
cs.AI
Resumen
La animación de imágenes humanas ha ganado creciente atención y se ha desarrollado rápidamente debido a sus amplias aplicaciones en humanos digitales. Sin embargo, los métodos existentes dependen en gran medida de imágenes de poses renderizadas en 2D para guiar el movimiento, lo que limita la generalización y descarta información 3D esencial para la animación en entornos abiertos. Para abordar este problema, proponemos MTVCrafter (Motion Tokenization Video Crafter), el primer marco que modela directamente secuencias de movimiento 3D en bruto (es decir, movimiento 4D) para la animación de imágenes humanas. Específicamente, introducimos 4DMoT (4D motion tokenizer) para cuantizar secuencias de movimiento 3D en tokens de movimiento 4D. En comparación con las imágenes de poses renderizadas en 2D, los tokens de movimiento 4D ofrecen señales espacio-temporales más robustas y evitan la alineación estricta a nivel de píxel entre la imagen de la pose y el personaje, permitiendo un control más flexible y desacoplado. Luego, introducimos MV-DiT (Motion-aware Video DiT). Al diseñar una atención de movimiento única con codificaciones posicionales 4D, MV-DiT puede aprovechar eficazmente los tokens de movimiento como contexto 4D compacto pero expresivo para la animación de imágenes humanas en el complejo mundo 3D. Por lo tanto, marca un avance significativo en este campo y abre una nueva dirección para la generación de videos humanos guiados por poses. Los experimentos muestran que nuestro MTVCrafter logra resultados de vanguardia con un FID-VID de 6.98, superando al segundo mejor en un 65%. Impulsado por tokens de movimiento robustos, MTVCrafter también generaliza bien a diversos personajes de entornos abiertos (individuales/múltiples, cuerpo completo/medio) en varios estilos y escenarios. Nuestros demos de video y código están en: https://github.com/DINGYANB/MTVCrafter.
English
Human image animation has gained increasing attention and developed rapidly
due to its broad applications in digital humans. However, existing methods rely
largely on 2D-rendered pose images for motion guidance, which limits
generalization and discards essential 3D information for open-world animation.
To tackle this problem, we propose MTVCrafter (Motion Tokenization Video
Crafter), the first framework that directly models raw 3D motion sequences
(i.e., 4D motion) for human image animation. Specifically, we introduce 4DMoT
(4D motion tokenizer) to quantize 3D motion sequences into 4D motion tokens.
Compared to 2D-rendered pose images, 4D motion tokens offer more robust
spatio-temporal cues and avoid strict pixel-level alignment between pose image
and character, enabling more flexible and disentangled control. Then, we
introduce MV-DiT (Motion-aware Video DiT). By designing unique motion attention
with 4D positional encodings, MV-DiT can effectively leverage motion tokens as
4D compact yet expressive context for human image animation in the complex 3D
world. Hence, it marks a significant step forward in this field and opens a new
direction for pose-guided human video generation. Experiments show that our
MTVCrafter achieves state-of-the-art results with an FID-VID of 6.98,
surpassing the second-best by 65%. Powered by robust motion tokens, MTVCrafter
also generalizes well to diverse open-world characters (single/multiple,
full/half-body) across various styles and scenarios. Our video demos and code
are on: https://github.com/DINGYANB/MTVCrafter.