RigMo: Объединение изучения риггинга и движения для генеративной анимации
RigMo: Unifying Rig and Motion Learning for Generative Animation
January 10, 2026
Авторы: Hao Zhang, Jiahao Luo, Bohui Wan, Yizhou Zhao, Zongrui Li, Michael Vasilkovsky, Chaoyang Wang, Jian Wang, Narendra Ahuja, Bing Zhou
cs.AI
Аннотация
Несмотря на значительный прогресс в области 4D-генерации, риггинга и анимации, ключевые структурные и динамические компоненты анимации обычно моделируются как отдельные задачи. Существующие пайплайны полагаются на готовые скелеты и веса скиннинга для генерации движения и рассматривают авто-риггинг как независимый процесс, что снижает масштабируемость и интерпретируемость. Мы представляем RigMo — унифицированную генеративную框架, которая совместно обучается риггингу и анимации непосредственно на последовательностях необработанных мешей, без каких-либо аннотаций рига, предоставленных человеком. RigMo кодирует деформации на вершину в два компактных латентных пространства: риг-пространство, которое декодируется в явные гауссовы кости и веса скиннинга, и пространство движения, которое генерирует зависящие от времени SE(3) преобразования. Вместе эти выходные данные определяют анимируемый меш с явной структурой и согласованным движением, обеспечивая прямую вывод рига и анимации для деформируемых объектов. Помимо объединенного обнаружения рига и движения, мы представляем модель Motion-DiT, работающую в латентном пространстве RigMo, и демонстрируем, что эти структурно-осознанные латентные представления естественным образом поддерживают последующие задачи генерации движения. Эксперименты на DeformingThings4D, Objaverse-XL и TrueBones показывают, что RigMo обучается создавать гладкие, интерпретируемые и физически правдоподобные риги, одновременно достигая превосходной реконструкции и обобщения на уровне категорий по сравнению с существующими базовыми методами авто-риггинга и деформации. RigMo устанавливает новую парадигму для унифицированного, структурно-осознанного и масштабируемого динамического 3D-моделирования.
English
Despite significant progress in 4D generation, rig and motion, the core structural and dynamic components of animation are typically modeled as separate problems. Existing pipelines rely on ground-truth skeletons and skinning weights for motion generation and treat auto-rigging as an independent process, undermining scalability and interpretability. We present RigMo, a unified generative framework that jointly learns rig and motion directly from raw mesh sequences, without any human-provided rig annotations. RigMo encodes per-vertex deformations into two compact latent spaces: a rig latent that decodes into explicit Gaussian bones and skinning weights, and a motion latent that produces time-varying SE(3) transformations. Together, these outputs define an animatable mesh with explicit structure and coherent motion, enabling feed-forward rig and motion inference for deformable objects. Beyond unified rig-motion discovery, we introduce a Motion-DiT model operating in RigMo's latent space and demonstrate that these structure-aware latents can naturally support downstream motion generation tasks. Experiments on DeformingThings4D, Objaverse-XL, and TrueBones demonstrate that RigMo learns smooth, interpretable, and physically plausible rigs, while achieving superior reconstruction and category-level generalization compared to existing auto-rigging and deformation baselines. RigMo establishes a new paradigm for unified, structure-aware, and scalable dynamic 3D modeling.