AnimaX: Animando lo inanimado en 3D con modelos de difusión conjunta de video y pose
AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models
June 24, 2025
Autores: Zehuan Huang, Haoran Feng, Yangtian Sun, Yuanchen Guo, Yanpei Cao, Lu Sheng
cs.AI
Resumen
Presentamos AnimaX, un marco de animación 3D de avance directo que conecta los
precedentes de movimiento de los modelos de difusión de video con la estructura
controlable de la animación basada en esqueletos. Los métodos tradicionales de
síntesis de movimiento están restringidos a topologías esqueléticas fijas o
requieren una costosa optimización en espacios de deformación de alta
dimensión. En contraste, AnimaX transfiere eficazmente el conocimiento de
movimiento basado en video al dominio 3D, soportando mallas articuladas
diversas con esqueletos arbitrarios. Nuestro método representa el movimiento 3D
como mapas de poses 2D multi-vista y multi-fotograma, y permite la difusión
conjunta de video y poses condicionada por representaciones de plantillas y un
prompt textual de movimiento. Introducimos codificaciones posicionales
compartidas y embeddings conscientes de la modalidad para garantizar la
alineación espacio-temporal entre secuencias de video y poses, transfiriendo
eficazmente los precedentes de video a la tarea de generación de movimiento. Las
secuencias de poses multi-vista resultantes se triangulan en posiciones de
articulaciones 3D y se convierten en animación de mallas mediante cinemática
inversa. Entrenado en un nuevo conjunto de datos curado de 160,000 secuencias
rigged, AnimaX logra resultados de vanguardia en VBench en generalización,
fidelidad de movimiento y eficiencia, ofreciendo una solución escalable para la
animación 3D agnóstica de categorías. Página del proyecto:
https://anima-x.github.io/{https://anima-x.github.io/}.
English
We present AnimaX, a feed-forward 3D animation framework that bridges the
motion priors of video diffusion models with the controllable structure of
skeleton-based animation. Traditional motion synthesis methods are either
restricted to fixed skeletal topologies or require costly optimization in
high-dimensional deformation spaces. In contrast, AnimaX effectively transfers
video-based motion knowledge to the 3D domain, supporting diverse articulated
meshes with arbitrary skeletons. Our method represents 3D motion as multi-view,
multi-frame 2D pose maps, and enables joint video-pose diffusion conditioned on
template renderings and a textual motion prompt. We introduce shared positional
encodings and modality-aware embeddings to ensure spatial-temporal alignment
between video and pose sequences, effectively transferring video priors to
motion generation task. The resulting multi-view pose sequences are
triangulated into 3D joint positions and converted into mesh animation via
inverse kinematics. Trained on a newly curated dataset of 160,000 rigged
sequences, AnimaX achieves state-of-the-art results on VBench in
generalization, motion fidelity, and efficiency, offering a scalable solution
for category-agnostic 3D animation. Project page:
https://anima-x.github.io/{https://anima-x.github.io/}.