AnimaX: Анимация неодушевленных объектов в 3D с использованием совместных моделей диффузии видео и поз
AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models
June 24, 2025
Авторы: Zehuan Huang, Haoran Feng, Yangtian Sun, Yuanchen Guo, Yanpei Cao, Lu Sheng
cs.AI
Аннотация
Мы представляем AnimaX, прямую (feed-forward) фреймворк для 3D-анимации, который объединяет априорные знания о движении из видео-диффузионных моделей с контролируемой структурой скелетной анимации. Традиционные методы синтеза движения либо ограничены фиксированными топологиями скелетов, либо требуют затратной оптимизации в высокоразмерных пространствах деформаций. В отличие от них, AnimaX эффективно переносит знания о движении, основанные на видео, в 3D-область, поддерживая разнообразные артикулированные меши с произвольными скелетами. Наш метод представляет 3D-движение как многовидовые, многокадровые 2D-карты поз и позволяет совместную видео-позную диффузию, обусловленную рендерингом шаблонов и текстовым описанием движения. Мы вводим общие позиционные кодировки и модально-зависимые вложения, чтобы обеспечить пространственно-временное выравнивание между видео- и позными последовательностями, эффективно перенося априорные знания из видео в задачу генерации движения. Полученные многовидовые последовательности поз триангулируются в 3D-позиции суставов и преобразуются в анимацию мешей с помощью обратной кинематики. Обучаясь на новом наборе данных из 160 000 риггированных последовательностей, AnimaX достигает передовых результатов на VBench по обобщению, точности движения и эффективности, предлагая масштабируемое решение для категорийно-независимой 3D-анимации. Страница проекта: https://anima-x.github.io/{https://anima-x.github.io/}.
English
We present AnimaX, a feed-forward 3D animation framework that bridges the
motion priors of video diffusion models with the controllable structure of
skeleton-based animation. Traditional motion synthesis methods are either
restricted to fixed skeletal topologies or require costly optimization in
high-dimensional deformation spaces. In contrast, AnimaX effectively transfers
video-based motion knowledge to the 3D domain, supporting diverse articulated
meshes with arbitrary skeletons. Our method represents 3D motion as multi-view,
multi-frame 2D pose maps, and enables joint video-pose diffusion conditioned on
template renderings and a textual motion prompt. We introduce shared positional
encodings and modality-aware embeddings to ensure spatial-temporal alignment
between video and pose sequences, effectively transferring video priors to
motion generation task. The resulting multi-view pose sequences are
triangulated into 3D joint positions and converted into mesh animation via
inverse kinematics. Trained on a newly curated dataset of 160,000 rigged
sequences, AnimaX achieves state-of-the-art results on VBench in
generalization, motion fidelity, and efficiency, offering a scalable solution
for category-agnostic 3D animation. Project page:
https://anima-x.github.io/{https://anima-x.github.io/}.