AnimaX: Het animeren van levenloze objecten in 3D met gezamenlijke video-pose diffusiemodellen
AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models
June 24, 2025
Auteurs: Zehuan Huang, Haoran Feng, Yangtian Sun, Yuanchen Guo, Yanpei Cao, Lu Sheng
cs.AI
Samenvatting
We presenteren AnimaX, een feed-forward 3D-animatieframework dat de bewegingsprioriteiten van videodiffusiemodellen verbindt met de bestuurbare structuur van skeletgebaseerde animatie. Traditionele methoden voor bewegingssynthese zijn beperkt tot vaste skeletale topologieën of vereisen kostbare optimalisatie in hoogdimensionale vervormingsruimtes. In tegenstelling hiermee brengt AnimaX op effectieve wijze videogebaseerde bewegingskennis over naar het 3D-domein, waarbij het diverse gearticuleerde meshes met willekeurige skeletten ondersteunt. Onze methode representeert 3D-beweging als multi-view, multi-frame 2D-positiemappen en maakt gezamenlijke video-pose diffusie mogelijk, geconditioneerd op sjabloonweergaven en een tekstuele bewegingsprompt. We introduceren gedeelde positionele coderingen en modaliteitsbewuste embeddings om ruimtelijk-temporele uitlijning tussen video- en positiereeksen te waarborgen, waardoor videoprioriteiten effectief worden overgedragen naar de bewegingsgeneratietaak. De resulterende multi-view positiereeksen worden getrianguleerd naar 3D-gewrichtsposities en omgezet in mesh-animatie via inverse kinematica. Getraind op een nieuw samengestelde dataset van 160.000 gerigde sequenties, behaalt AnimaX state-of-the-art resultaten op VBench op het gebied van generalisatie, bewegingsgetrouwheid en efficiëntie, en biedt een schaalbare oplossing voor categorie-agnostische 3D-animatie. Projectpagina: https://anima-x.github.io/{https://anima-x.github.io/}.
English
We present AnimaX, a feed-forward 3D animation framework that bridges the
motion priors of video diffusion models with the controllable structure of
skeleton-based animation. Traditional motion synthesis methods are either
restricted to fixed skeletal topologies or require costly optimization in
high-dimensional deformation spaces. In contrast, AnimaX effectively transfers
video-based motion knowledge to the 3D domain, supporting diverse articulated
meshes with arbitrary skeletons. Our method represents 3D motion as multi-view,
multi-frame 2D pose maps, and enables joint video-pose diffusion conditioned on
template renderings and a textual motion prompt. We introduce shared positional
encodings and modality-aware embeddings to ensure spatial-temporal alignment
between video and pose sequences, effectively transferring video priors to
motion generation task. The resulting multi-view pose sequences are
triangulated into 3D joint positions and converted into mesh animation via
inverse kinematics. Trained on a newly curated dataset of 160,000 rigged
sequences, AnimaX achieves state-of-the-art results on VBench in
generalization, motion fidelity, and efficiency, offering a scalable solution
for category-agnostic 3D animation. Project page:
https://anima-x.github.io/{https://anima-x.github.io/}.