ChatPaper.aiChatPaper

AnimaX: Belebung des Unbelebten in 3D mit gemeinsamen Video-Pose-Diffusionsmodellen

AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models

June 24, 2025
Autoren: Zehuan Huang, Haoran Feng, Yangtian Sun, Yuanchen Guo, Yanpei Cao, Lu Sheng
cs.AI

Zusammenfassung

Wir präsentieren AnimaX, ein vorwärtsgerichtetes 3D-Animationsframework, das die Bewegungspräferenzen von Video-Diffusionsmodellen mit der kontrollierbaren Struktur von skelettbasierter Animation verbindet. Traditionelle Methoden zur Bewegungssynthese sind entweder auf feste Skeletttopologien beschränkt oder erfordern kostspielige Optimierungen in hochdimensionalen Verformungsräumen. Im Gegensatz dazu überträgt AnimaX effektiv videobasiertes Bewegungswissen in den 3D-Bereich und unterstützt diverse artikulierte Meshes mit beliebigen Skeletten. Unsere Methode repräsentiert 3D-Bewegungen als Multi-View-, Multi-Frame-2D-Pose-Maps und ermöglicht eine gemeinsame Video-Pose-Diffusion, die auf Template-Renderings und einem textuellen Bewegungs-Prompt basiert. Wir führen gemeinsame Positionskodierungen und modalitätsbewusste Einbettungen ein, um die räumlich-zeitliche Ausrichtung zwischen Video- und Pose-Sequenzen sicherzustellen und so Video-Prioritäten effektiv auf die Bewegungsgenerationsaufgabe zu übertragen. Die resultierenden Multi-View-Pose-Sequenzen werden in 3D-Gelenkpositionen trianguliert und über inverse Kinematik in Mesh-Animationen umgewandelt. AnimaX, das auf einem neu kuratierten Datensatz von 160.000 rigged Sequenzen trainiert wurde, erzielt state-of-the-art Ergebnisse auf VBench in Bezug auf Generalisierung, Bewegungsfidelität und Effizienz und bietet eine skalierbare Lösung für kategorieagnostische 3D-Animation. Projektseite: https://anima-x.github.io/{https://anima-x.github.io/}.
English
We present AnimaX, a feed-forward 3D animation framework that bridges the motion priors of video diffusion models with the controllable structure of skeleton-based animation. Traditional motion synthesis methods are either restricted to fixed skeletal topologies or require costly optimization in high-dimensional deformation spaces. In contrast, AnimaX effectively transfers video-based motion knowledge to the 3D domain, supporting diverse articulated meshes with arbitrary skeletons. Our method represents 3D motion as multi-view, multi-frame 2D pose maps, and enables joint video-pose diffusion conditioned on template renderings and a textual motion prompt. We introduce shared positional encodings and modality-aware embeddings to ensure spatial-temporal alignment between video and pose sequences, effectively transferring video priors to motion generation task. The resulting multi-view pose sequences are triangulated into 3D joint positions and converted into mesh animation via inverse kinematics. Trained on a newly curated dataset of 160,000 rigged sequences, AnimaX achieves state-of-the-art results on VBench in generalization, motion fidelity, and efficiency, offering a scalable solution for category-agnostic 3D animation. Project page: https://anima-x.github.io/{https://anima-x.github.io/}.
PDF411June 25, 2025