AnimaX: Animando o Inanimado em 3D com Modelos de Difusão Conjunta de Vídeo-Pose
AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models
June 24, 2025
Autores: Zehuan Huang, Haoran Feng, Yangtian Sun, Yuanchen Guo, Yanpei Cao, Lu Sheng
cs.AI
Resumo
Apresentamos o AnimaX, um framework de animação 3D feed-forward que conecta os priors de movimento dos modelos de difusão de vídeo com a estrutura controlável da animação baseada em esqueletos. Os métodos tradicionais de síntese de movimento são limitados a topologias esqueléticas fixas ou exigem otimizações custosas em espaços de deformação de alta dimensionalidade. Em contraste, o AnimaX transfere efetivamente o conhecimento de movimento baseado em vídeo para o domínio 3D, suportando malhas articuladas diversas com esqueletos arbitrários. Nosso método representa o movimento 3D como mapas de poses 2D multi-visão e multi-quadro, e habilita a difusão conjunta de vídeo-pose condicionada em renderizações de template e um prompt textual de movimento. Introduzimos codificações posicionais compartilhadas e embeddings conscientes da modalidade para garantir o alinhamento espaço-temporal entre sequências de vídeo e pose, transferindo efetivamente os priors de vídeo para a tarefa de geração de movimento. As sequências de pose multi-visão resultantes são trianguladas em posições de juntas 3D e convertidas em animação de malha via cinemática inversa. Treinado em um novo conjunto de dados de 160.000 sequências rigged, o AnimaX alcança resultados state-of-the-art no VBench em generalização, fidelidade de movimento e eficiência, oferecendo uma solução escalável para animação 3D independente de categoria. Página do projeto: https://anima-x.github.io/{https://anima-x.github.io/}.
English
We present AnimaX, a feed-forward 3D animation framework that bridges the
motion priors of video diffusion models with the controllable structure of
skeleton-based animation. Traditional motion synthesis methods are either
restricted to fixed skeletal topologies or require costly optimization in
high-dimensional deformation spaces. In contrast, AnimaX effectively transfers
video-based motion knowledge to the 3D domain, supporting diverse articulated
meshes with arbitrary skeletons. Our method represents 3D motion as multi-view,
multi-frame 2D pose maps, and enables joint video-pose diffusion conditioned on
template renderings and a textual motion prompt. We introduce shared positional
encodings and modality-aware embeddings to ensure spatial-temporal alignment
between video and pose sequences, effectively transferring video priors to
motion generation task. The resulting multi-view pose sequences are
triangulated into 3D joint positions and converted into mesh animation via
inverse kinematics. Trained on a newly curated dataset of 160,000 rigged
sequences, AnimaX achieves state-of-the-art results on VBench in
generalization, motion fidelity, and efficiency, offering a scalable solution
for category-agnostic 3D animation. Project page:
https://anima-x.github.io/{https://anima-x.github.io/}.