AnimaX: Het animeren van levenloze objecten in 3D met gezamenlijke video-pose diffusiemodellen

Samenvatting

We presenteren AnimaX, een feed-forward 3D-animatieframework dat de bewegingsprioriteiten van videodiffusiemodellen verbindt met de bestuurbare structuur van skeletgebaseerde animatie. Traditionele methoden voor bewegingssynthese zijn beperkt tot vaste skeletale topologieën of vereisen kostbare optimalisatie in hoogdimensionale vervormingsruimtes. In tegenstelling hiermee brengt AnimaX op effectieve wijze videogebaseerde bewegingskennis over naar het 3D-domein, waarbij het diverse gearticuleerde meshes met willekeurige skeletten ondersteunt. Onze methode representeert 3D-beweging als multi-view, multi-frame 2D-positiemappen en maakt gezamenlijke video-pose diffusie mogelijk, geconditioneerd op sjabloonweergaven en een tekstuele bewegingsprompt. We introduceren gedeelde positionele coderingen en modaliteitsbewuste embeddings om ruimtelijk-temporele uitlijning tussen video- en positiereeksen te waarborgen, waardoor videoprioriteiten effectief worden overgedragen naar de bewegingsgeneratietaak. De resulterende multi-view positiereeksen worden getrianguleerd naar 3D-gewrichtsposities en omgezet in mesh-animatie via inverse kinematica. Getraind op een nieuw samengestelde dataset van 160.000 gerigde sequenties, behaalt AnimaX state-of-the-art resultaten op VBench op het gebied van generalisatie, bewegingsgetrouwheid en efficiëntie, en biedt een schaalbare oplossing voor categorie-agnostische 3D-animatie. Projectpagina: https://anima-x.github.io/{https://anima-x.github.io/}.

English

We present AnimaX, a feed-forward 3D animation framework that bridges the motion priors of video diffusion models with the controllable structure of skeleton-based animation. Traditional motion synthesis methods are either restricted to fixed skeletal topologies or require costly optimization in high-dimensional deformation spaces. In contrast, AnimaX effectively transfers video-based motion knowledge to the 3D domain, supporting diverse articulated meshes with arbitrary skeletons. Our method represents 3D motion as multi-view, multi-frame 2D pose maps, and enables joint video-pose diffusion conditioned on template renderings and a textual motion prompt. We introduce shared positional encodings and modality-aware embeddings to ensure spatial-temporal alignment between video and pose sequences, effectively transferring video priors to motion generation task. The resulting multi-view pose sequences are triangulated into 3D joint positions and converted into mesh animation via inverse kinematics. Trained on a newly curated dataset of 160,000 rigged sequences, AnimaX achieves state-of-the-art results on VBench in generalization, motion fidelity, and efficiency, offering a scalable solution for category-agnostic 3D animation. Project page: https://anima-x.github.io/{https://anima-x.github.io/}.

AnimaX: Het animeren van levenloze objecten in 3D met gezamenlijke video-pose diffusiemodellen

AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models

Samenvatting

Support