ChatPaper.aiChatPaper

AnimaX: Animare l'inanimato in 3D con modelli di diffusione congiunta video-posa

AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models

June 24, 2025
Autori: Zehuan Huang, Haoran Feng, Yangtian Sun, Yuanchen Guo, Yanpei Cao, Lu Sheng
cs.AI

Abstract

Presentiamo AnimaX, un framework di animazione 3D feed-forward che collega i prior di movimento dei modelli di diffusione video con la struttura controllabile dell'animazione basata su scheletri. I metodi tradizionali di sintesi del movimento sono limitati a topologie scheletriche fisse o richiedono un'ottimizzazione costosa in spazi di deformazione ad alta dimensionalità. Al contrario, AnimaX trasferisce efficacemente la conoscenza del movimento basata su video al dominio 3D, supportando mesh articolati diversi con scheletri arbitrari. Il nostro metodo rappresenta il movimento 3D come mappe di pose 2D multi-vista e multi-frame, e abilita la diffusione congiunta video-pose condizionata su rendering di template e un prompt testuale di movimento. Introduciamo codifiche posizionali condivise e embedding consapevoli della modalità per garantire l'allineamento spazio-temporale tra sequenze video e pose, trasferendo efficacemente i prior video al compito di generazione del movimento. Le sequenze di pose multi-vista risultanti vengono triangolate in posizioni 3D delle articolazioni e convertite in animazione mesh tramite cinematica inversa. Addestrato su un nuovo dataset curato di 160.000 sequenze rigged, AnimaX raggiunge risultati all'avanguardia su VBench in termini di generalizzazione, fedeltà del movimento ed efficienza, offrendo una soluzione scalabile per l'animazione 3D agnostica alla categoria. Pagina del progetto: https://anima-x.github.io/{https://anima-x.github.io/}.
English
We present AnimaX, a feed-forward 3D animation framework that bridges the motion priors of video diffusion models with the controllable structure of skeleton-based animation. Traditional motion synthesis methods are either restricted to fixed skeletal topologies or require costly optimization in high-dimensional deformation spaces. In contrast, AnimaX effectively transfers video-based motion knowledge to the 3D domain, supporting diverse articulated meshes with arbitrary skeletons. Our method represents 3D motion as multi-view, multi-frame 2D pose maps, and enables joint video-pose diffusion conditioned on template renderings and a textual motion prompt. We introduce shared positional encodings and modality-aware embeddings to ensure spatial-temporal alignment between video and pose sequences, effectively transferring video priors to motion generation task. The resulting multi-view pose sequences are triangulated into 3D joint positions and converted into mesh animation via inverse kinematics. Trained on a newly curated dataset of 160,000 rigged sequences, AnimaX achieves state-of-the-art results on VBench in generalization, motion fidelity, and efficiency, offering a scalable solution for category-agnostic 3D animation. Project page: https://anima-x.github.io/{https://anima-x.github.io/}.
PDF551June 25, 2025