ChatPaper.aiChatPaper

RigMo : Unification de l'apprentissage du rig et du mouvement pour l'animation générative

RigMo: Unifying Rig and Motion Learning for Generative Animation

January 10, 2026
papers.authors: Hao Zhang, Jiahao Luo, Bohui Wan, Yizhou Zhao, Zongrui Li, Michael Vasilkovsky, Chaoyang Wang, Jian Wang, Narendra Ahuja, Bing Zhou
cs.AI

papers.abstract

Malgré les progrès significatifs en génération 4D, les éléments fondamentaux que sont le rig et l'animation sont généralement modélisés comme des problèmes distincts. Les pipelines existants s'appuient sur des squelettes et des poids d'enveloppe de référence pour la génération de mouvement et traitent l'auto-rigging comme un processus indépendant, ce qui nuit à l'évolutivité et à l'interprétabilité. Nous présentons RigMo, un framework génératif unifié qui apprend conjointement le rig et l'animation directement à partir de séquences de maillages bruts, sans aucune annotation de rig fournie par l'homme. RigMo encode les déformations par sommet dans deux espaces latents compacts : un latent de rig qui décode en os gaussiens explicites et en poids d'enveloppe, et un latent de mouvement qui produit des transformations SE(3) variant dans le temps. Ensemble, ces sorties définissent un maillage animable avec une structure explicite et un mouvement cohérent, permettant une inférence de rig et de mouvement en feed-forward pour les objets déformables. Au-delà de la découverte unifiée rig-mouvement, nous introduisons un modèle Motion-DiT opérant dans l'espace latent de RigMo et démontrons que ces latents conscients de la structure peuvent naturellement prendre en charge des tâches de génération de mouvement en aval. Les expériences sur DeformingThings4D, Objaverse-XL et TrueBones démontrent que RigMo apprend des rigs lisses, interprétables et physiquement plausibles, tout en obtenant une reconstruction et une généralisation au niveau de la catégorie supérieures par rapport aux méthodes de référence existantes en auto-rigging et déformation. RigMo établit un nouveau paradigme pour la modélisation dynamique 3D unifiée, consciente de la structure et évolutive.
English
Despite significant progress in 4D generation, rig and motion, the core structural and dynamic components of animation are typically modeled as separate problems. Existing pipelines rely on ground-truth skeletons and skinning weights for motion generation and treat auto-rigging as an independent process, undermining scalability and interpretability. We present RigMo, a unified generative framework that jointly learns rig and motion directly from raw mesh sequences, without any human-provided rig annotations. RigMo encodes per-vertex deformations into two compact latent spaces: a rig latent that decodes into explicit Gaussian bones and skinning weights, and a motion latent that produces time-varying SE(3) transformations. Together, these outputs define an animatable mesh with explicit structure and coherent motion, enabling feed-forward rig and motion inference for deformable objects. Beyond unified rig-motion discovery, we introduce a Motion-DiT model operating in RigMo's latent space and demonstrate that these structure-aware latents can naturally support downstream motion generation tasks. Experiments on DeformingThings4D, Objaverse-XL, and TrueBones demonstrate that RigMo learns smooth, interpretable, and physically plausible rigs, while achieving superior reconstruction and category-level generalization compared to existing auto-rigging and deformation baselines. RigMo establishes a new paradigm for unified, structure-aware, and scalable dynamic 3D modeling.
PDF21January 17, 2026