RigMo: Vereinheitlichung von Rig- und Bewegungslernen für generative Animation
RigMo: Unifying Rig and Motion Learning for Generative Animation
January 10, 2026
papers.authors: Hao Zhang, Jiahao Luo, Bohui Wan, Yizhou Zhao, Zongrui Li, Michael Vasilkovsky, Chaoyang Wang, Jian Wang, Narendra Ahuja, Bing Zhou
cs.AI
papers.abstract
Trotz erheblicher Fortschritte in der 4D-Generierung bleiben Rig und Bewegung, die zentralen strukturellen und dynamischen Komponenten der Animation, typischerweise als separate Probleme modelliert. Bestehende Pipelines verlassen sich auf Ground-Truth-Skelette und Skinning-Gewichte für die Bewegungsgenerierung und behandeln das Auto-Rigging als unabhängigen Prozess, was die Skalierbarkeit und Interpretierbarkeit beeinträchtigt. Wir stellen RigMo vor, ein vereinheitlichtes generatives Framework, das Rig und Bewegung gemeinsam direkt aus Roh-Mesh-Sequenzen erlernt, ohne jegliche von Menschen bereitgestellte Rig-Annotationen. RigMo kodiert vertexbezogene Deformationen in zwei kompakte latente Räume: einen Rig-Latenzraum, der in explizite Gaussian Bones und Skinning-Gewichte decodiert wird, und einen Bewegungs-Latenzraum, der zeitvariierende SE(3)-Transformationen erzeugt. Gemeinsam definieren diese Ausgaben ein animierbares Mesh mit expliziter Struktur und kohärenter Bewegung, was eine Vorwärtsinferenz von Rig und Bewegung für deformierbare Objekte ermöglicht. Über die vereinheitlichte Rig-Bewegungs-Entdeckung hinaus führen wir ein Motion-DiT-Modell ein, das im latenten Raum von RigMo operiert, und zeigen, dass diese strukturbewussten latenten Repräsentationen nachgelagerte Bewegungsgenerierungsaufgaben natürlich unterstützen können. Experimente auf DeformingThings4D, Objaverse-XL und TrueBones demonstrieren, dass RigMo glatte, interpretierbare und physikalisch plausible Rigs erlernt und dabei eine überlegene Rekonstruktion sowie generalisierung auf Kategorieebene im Vergleich zu bestehenden Auto-Rigging- und Deformations-Baselines erreicht. RigMo etabliert ein neues Paradigma für vereinheitlichte, strukturbewusste und skalierbare dynamische 3D-Modellierung.
English
Despite significant progress in 4D generation, rig and motion, the core structural and dynamic components of animation are typically modeled as separate problems. Existing pipelines rely on ground-truth skeletons and skinning weights for motion generation and treat auto-rigging as an independent process, undermining scalability and interpretability. We present RigMo, a unified generative framework that jointly learns rig and motion directly from raw mesh sequences, without any human-provided rig annotations. RigMo encodes per-vertex deformations into two compact latent spaces: a rig latent that decodes into explicit Gaussian bones and skinning weights, and a motion latent that produces time-varying SE(3) transformations. Together, these outputs define an animatable mesh with explicit structure and coherent motion, enabling feed-forward rig and motion inference for deformable objects. Beyond unified rig-motion discovery, we introduce a Motion-DiT model operating in RigMo's latent space and demonstrate that these structure-aware latents can naturally support downstream motion generation tasks. Experiments on DeformingThings4D, Objaverse-XL, and TrueBones demonstrate that RigMo learns smooth, interpretable, and physically plausible rigs, while achieving superior reconstruction and category-level generalization compared to existing auto-rigging and deformation baselines. RigMo establishes a new paradigm for unified, structure-aware, and scalable dynamic 3D modeling.