AnimaX : Animer l'inanimé en 3D avec des modèles de diffusion conjoints vidéo-pose
AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models
June 24, 2025
Auteurs: Zehuan Huang, Haoran Feng, Yangtian Sun, Yuanchen Guo, Yanpei Cao, Lu Sheng
cs.AI
Résumé
Nous présentons AnimaX, un cadre d’animation 3D en flux direct qui relie les a priori de mouvement des modèles de diffusion vidéo à la structure contrôlable de l’animation basée sur des squelettes. Les méthodes traditionnelles de synthèse de mouvement sont soit limitées à des topologies squelettiques fixes, soit nécessitent une optimisation coûteuse dans des espaces de déformation de haute dimension. En revanche, AnimaX transfère efficacement les connaissances de mouvement basées sur la vidéo au domaine 3D, prenant en charge des maillages articulés variés avec des squelettes arbitraires. Notre méthode représente le mouvement 3D sous forme de cartes de poses 2D multi-vues et multi-images, et permet une diffusion conjointe vidéo-pose conditionnée par des rendus de modèles et une invite textuelle de mouvement. Nous introduisons des encodages positionnels partagés et des embeddings conscients des modalités pour assurer l’alignement spatio-temporel entre les séquences vidéo et de poses, transférant efficacement les a priori vidéo à la tâche de génération de mouvement. Les séquences de poses multi-vues résultantes sont triangulées en positions articulaires 3D et converties en animation de maillage via une cinématique inverse. Entraîné sur un nouvel ensemble de données de 160 000 séquences riggées, AnimaX atteint des résultats de pointe sur VBench en termes de généralisation, fidélité du mouvement et efficacité, offrant une solution évolutive pour l’animation 3D indépendante de la catégorie. Page du projet : https://anima-x.github.io/{https://anima-x.github.io/}.
English
We present AnimaX, a feed-forward 3D animation framework that bridges the
motion priors of video diffusion models with the controllable structure of
skeleton-based animation. Traditional motion synthesis methods are either
restricted to fixed skeletal topologies or require costly optimization in
high-dimensional deformation spaces. In contrast, AnimaX effectively transfers
video-based motion knowledge to the 3D domain, supporting diverse articulated
meshes with arbitrary skeletons. Our method represents 3D motion as multi-view,
multi-frame 2D pose maps, and enables joint video-pose diffusion conditioned on
template renderings and a textual motion prompt. We introduce shared positional
encodings and modality-aware embeddings to ensure spatial-temporal alignment
between video and pose sequences, effectively transferring video priors to
motion generation task. The resulting multi-view pose sequences are
triangulated into 3D joint positions and converted into mesh animation via
inverse kinematics. Trained on a newly curated dataset of 160,000 rigged
sequences, AnimaX achieves state-of-the-art results on VBench in
generalization, motion fidelity, and efficiency, offering a scalable solution
for category-agnostic 3D animation. Project page:
https://anima-x.github.io/{https://anima-x.github.io/}.