RigMo: Unificazione dell'Apprendimento del Rig e del Movimento per l'Animazione Generativa

Abstract

Nonostante i significativi progressi nella generazione 4D, la creazione del rig e del movimento, i componenti strutturali e dinamici fondamentali dell'animazione, sono tipicamente modellati come problemi separati. Le pipeline esistenti si basano su scheletri e pesi di skinning veritieri per la generazione del movimento e trattano l'auto-rigging come un processo indipendente, minando la scalabilità e l'interpretabilità. Presentiamo RigMo, un framework generativo unificato che apprende congiuntamente il rig e il movimento direttamente da sequenze grezze di mesh, senza alcuna annotazione di rig fornita da un operatore umano. RigMo codifica le deformazioni per vertice in due spazi latenti compatti: uno spazio latente del *rig* che decodifica in ossa gaussiane esplicite e pesi di skinning, e uno spazio latente del *motion* che produce trasformazioni SE(3) varianti nel tempo. Insieme, questi output definiscono una mesh animabile con struttura esplicita e movimento coerente, abilitando l'inferenza feed-forward del rig e del movimento per oggetti deformabili. Oltre alla scoperta unificata di rig e movimento, introduciamo un modello Motion-DiT che opera nello spazio latente di RigMo e dimostriamo che questi spazi latenti consapevoli della struttura possono supportare naturalmente attività di generazione del movimento a valle. Esperimenti su DeformingThings4D, Objaverse-XL e TrueBones dimostrano che RigMo apprende rig lisci, interpretabili e fisicamente plausibili, raggiungendo al contempo una ricostruzione e una generalizzazione a livello di categoria superiori rispetto alle baseline esistenti di auto-rigging e deformazione. RigMo stabilisce un nuovo paradigma per la modellazione 3D dinamica unificata, consapevole della struttura e scalabile.

English

Despite significant progress in 4D generation, rig and motion, the core structural and dynamic components of animation are typically modeled as separate problems. Existing pipelines rely on ground-truth skeletons and skinning weights for motion generation and treat auto-rigging as an independent process, undermining scalability and interpretability. We present RigMo, a unified generative framework that jointly learns rig and motion directly from raw mesh sequences, without any human-provided rig annotations. RigMo encodes per-vertex deformations into two compact latent spaces: a rig latent that decodes into explicit Gaussian bones and skinning weights, and a motion latent that produces time-varying SE(3) transformations. Together, these outputs define an animatable mesh with explicit structure and coherent motion, enabling feed-forward rig and motion inference for deformable objects. Beyond unified rig-motion discovery, we introduce a Motion-DiT model operating in RigMo's latent space and demonstrate that these structure-aware latents can naturally support downstream motion generation tasks. Experiments on DeformingThings4D, Objaverse-XL, and TrueBones demonstrate that RigMo learns smooth, interpretable, and physically plausible rigs, while achieving superior reconstruction and category-level generalization compared to existing auto-rigging and deformation baselines. RigMo establishes a new paradigm for unified, structure-aware, and scalable dynamic 3D modeling.

RigMo: Unificazione dell'Apprendimento del Rig e del Movimento per l'Animazione Generativa

RigMo: Unifying Rig and Motion Learning for Generative Animation

Abstract

Support