ChatPaper.aiChatPaper

AnimaX: Animando lo inanimado en 3D con modelos de difusión conjunta de video y pose

AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models

June 24, 2025
Autores: Zehuan Huang, Haoran Feng, Yangtian Sun, Yuanchen Guo, Yanpei Cao, Lu Sheng
cs.AI

Resumen

Presentamos AnimaX, un marco de animación 3D de avance directo que conecta los precedentes de movimiento de los modelos de difusión de video con la estructura controlable de la animación basada en esqueletos. Los métodos tradicionales de síntesis de movimiento están restringidos a topologías esqueléticas fijas o requieren una costosa optimización en espacios de deformación de alta dimensión. En contraste, AnimaX transfiere eficazmente el conocimiento de movimiento basado en video al dominio 3D, soportando mallas articuladas diversas con esqueletos arbitrarios. Nuestro método representa el movimiento 3D como mapas de poses 2D multi-vista y multi-fotograma, y permite la difusión conjunta de video y poses condicionada por representaciones de plantillas y un prompt textual de movimiento. Introducimos codificaciones posicionales compartidas y embeddings conscientes de la modalidad para garantizar la alineación espacio-temporal entre secuencias de video y poses, transfiriendo eficazmente los precedentes de video a la tarea de generación de movimiento. Las secuencias de poses multi-vista resultantes se triangulan en posiciones de articulaciones 3D y se convierten en animación de mallas mediante cinemática inversa. Entrenado en un nuevo conjunto de datos curado de 160,000 secuencias rigged, AnimaX logra resultados de vanguardia en VBench en generalización, fidelidad de movimiento y eficiencia, ofreciendo una solución escalable para la animación 3D agnóstica de categorías. Página del proyecto: https://anima-x.github.io/{https://anima-x.github.io/}.
English
We present AnimaX, a feed-forward 3D animation framework that bridges the motion priors of video diffusion models with the controllable structure of skeleton-based animation. Traditional motion synthesis methods are either restricted to fixed skeletal topologies or require costly optimization in high-dimensional deformation spaces. In contrast, AnimaX effectively transfers video-based motion knowledge to the 3D domain, supporting diverse articulated meshes with arbitrary skeletons. Our method represents 3D motion as multi-view, multi-frame 2D pose maps, and enables joint video-pose diffusion conditioned on template renderings and a textual motion prompt. We introduce shared positional encodings and modality-aware embeddings to ensure spatial-temporal alignment between video and pose sequences, effectively transferring video priors to motion generation task. The resulting multi-view pose sequences are triangulated into 3D joint positions and converted into mesh animation via inverse kinematics. Trained on a newly curated dataset of 160,000 rigged sequences, AnimaX achieves state-of-the-art results on VBench in generalization, motion fidelity, and efficiency, offering a scalable solution for category-agnostic 3D animation. Project page: https://anima-x.github.io/{https://anima-x.github.io/}.
PDF411June 25, 2025