ChatPaper.aiChatPaper

RigMo: Unificación del Aprendizaje de Rig y Movimiento para la Animación Generativa

RigMo: Unifying Rig and Motion Learning for Generative Animation

January 10, 2026
Autores: Hao Zhang, Jiahao Luo, Bohui Wan, Yizhou Zhao, Zongrui Li, Michael Vasilkovsky, Chaoyang Wang, Jian Wang, Narendra Ahuja, Bing Zhou
cs.AI

Resumen

A pesar de los avances significativos en la generación 4D, el *rigging* y el movimiento, los componentes estructurales y dinámicos centrales de la animación suelen modelarse como problemas separados. Las canalizaciones existentes dependen de esqueletos y pesos de *skinning* de referencia (*ground-truth*) para la generación de movimiento y tratan el auto-*rigging* como un proceso independiente, lo que socava la escalabilidad y la interpretabilidad. Presentamos RigMo, un marco generativo unificado que aprende conjuntamente el *rig* y el movimiento directamente a partir de secuencias de mallas en bruto, sin ninguna anotación de *rig* proporcionada por humanos. RigMo codifica las deformaciones por vértice en dos espacios latentes compactos: un espacio latente de *rig* que se decodifica en huesos Gaussianos explícitos y pesos de *skinning*, y un espacio latente de movimiento que produce transformaciones SE(3) variables en el tiempo. Juntos, estos resultados definen una malla animable con estructura explícita y movimiento coherente, permitiendo la inferencia de *rig* y movimiento en un solo paso hacia adelante (*feed-forward*) para objetos deformables. Más allá del descubrimiento unificado de *rig* y movimiento, introducimos un modelo Motion-DiT que opera en el espacio latente de RigMo y demostramos que estos espacios latentes con conciencia estructural pueden soportar naturalmente tareas posteriores de generación de movimiento. Los experimentos en DeformingThings4D, Objaverse-XL y TrueBones demuestran que RigMo aprende *rigs* suaves, interpretables y físicamente plausibles, logrando al mismo tiempo una reconstrucción y una generalización a nivel de categoría superiores en comparación con los métodos base existentes de auto-*rigging* y deformación. RigMo establece un nuevo paradigma para el modelado dinámico 3D unificado, con conciencia estructural y escalable.
English
Despite significant progress in 4D generation, rig and motion, the core structural and dynamic components of animation are typically modeled as separate problems. Existing pipelines rely on ground-truth skeletons and skinning weights for motion generation and treat auto-rigging as an independent process, undermining scalability and interpretability. We present RigMo, a unified generative framework that jointly learns rig and motion directly from raw mesh sequences, without any human-provided rig annotations. RigMo encodes per-vertex deformations into two compact latent spaces: a rig latent that decodes into explicit Gaussian bones and skinning weights, and a motion latent that produces time-varying SE(3) transformations. Together, these outputs define an animatable mesh with explicit structure and coherent motion, enabling feed-forward rig and motion inference for deformable objects. Beyond unified rig-motion discovery, we introduce a Motion-DiT model operating in RigMo's latent space and demonstrate that these structure-aware latents can naturally support downstream motion generation tasks. Experiments on DeformingThings4D, Objaverse-XL, and TrueBones demonstrate that RigMo learns smooth, interpretable, and physically plausible rigs, while achieving superior reconstruction and category-level generalization compared to existing auto-rigging and deformation baselines. RigMo establishes a new paradigm for unified, structure-aware, and scalable dynamic 3D modeling.
PDF21January 17, 2026