ChatPaper.aiChatPaper

AnimaX: 3D에서 무생물을 움직이는 비디오-포즈 결합 확산 모델

AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models

June 24, 2025
저자: Zehuan Huang, Haoran Feng, Yangtian Sun, Yuanchen Guo, Yanpei Cao, Lu Sheng
cs.AI

초록

우리는 비디오 확산 모델의 동작 사전 지식과 스켈레톤 기반 애니메이션의 제어 가능한 구조를 연결하는 피드포워드 3D 애니메이션 프레임워크인 AnimaX를 소개합니다. 기존의 동작 합성 방법은 고정된 스켈레톤 토폴로지에 제한되거나 고차원 변형 공간에서의 비용이 많이 드는 최적화가 필요했습니다. 반면, AnimaX는 비디오 기반 동작 지식을 3D 도메인으로 효과적으로 전달하며, 임의의 스켈레톤을 가진 다양한 관절 메쉬를 지원합니다. 우리의 방법은 3D 동작을 다중 뷰, 다중 프레임 2D 포즈 맵으로 표현하고, 템플릿 렌더링과 텍스트 동작 프롬프트에 기반한 비디오-포즈 확산을 가능하게 합니다. 비디오와 포즈 시퀀스 간의 시공간적 정렬을 보장하기 위해 공유 위치 인코딩과 모달리티 인식 임베딩을 도입하여 비디오 사전 지식을 동작 생성 작업에 효과적으로 전달합니다. 결과적으로 생성된 다중 뷰 포즈 시퀀스는 3D 관절 위치로 삼각측량되고, 역운동학을 통해 메쉬 애니메이션으로 변환됩니다. 160,000개의 리깅 시퀀스로 구성된 새롭게 구축된 데이터셋으로 학습된 AnimaX는 VBench에서 일반화, 동작 충실도 및 효율성 측면에서 최첨단 결과를 달성하며, 범주에 구애받지 않는 3D 애니메이션을 위한 확장 가능한 솔루션을 제공합니다. 프로젝트 페이지: https://anima-x.github.io/{https://anima-x.github.io/}.
English
We present AnimaX, a feed-forward 3D animation framework that bridges the motion priors of video diffusion models with the controllable structure of skeleton-based animation. Traditional motion synthesis methods are either restricted to fixed skeletal topologies or require costly optimization in high-dimensional deformation spaces. In contrast, AnimaX effectively transfers video-based motion knowledge to the 3D domain, supporting diverse articulated meshes with arbitrary skeletons. Our method represents 3D motion as multi-view, multi-frame 2D pose maps, and enables joint video-pose diffusion conditioned on template renderings and a textual motion prompt. We introduce shared positional encodings and modality-aware embeddings to ensure spatial-temporal alignment between video and pose sequences, effectively transferring video priors to motion generation task. The resulting multi-view pose sequences are triangulated into 3D joint positions and converted into mesh animation via inverse kinematics. Trained on a newly curated dataset of 160,000 rigged sequences, AnimaX achieves state-of-the-art results on VBench in generalization, motion fidelity, and efficiency, offering a scalable solution for category-agnostic 3D animation. Project page: https://anima-x.github.io/{https://anima-x.github.io/}.
PDF581June 25, 2025