RigMo: Vereniging van Rig- en Bewegingsleren voor Generatieve Animatie

Samenvatting

Ondanks aanzienlijke vooruitgang in 4D-generatie, rigging en beweging, worden de kernstructurele en dynamische componenten van animatie doorgaans als afzonderlijke problemen gemodelleerd. Bestaande pijplijnen vertrouwen op grond-waarheid-skeletten en skinning-gewichten voor bewegingsoverdracht en behandelen auto-rigging als een onafhankelijk proces, wat de schaalbaarheid en interpreteerbaarheid ondermijnt. Wij presenteren RigMo, een verenigd generatief raamwerk dat rigging en beweging gezamenlijk leert direct uit ruwe mesh-reeksen, zonder enige door de mens verstrekte rig-annotaties. RigMo codeert vertex-specifieke vervormingen in twee compacte latente ruimten: een rig-latente ruimte die decodeert naar expliciete Gaussische botten en skinning-gewichten, en een beweging-latente ruimte die tijdsvariërende SE(3)-transformaties produceert. Samen definiëren deze uitvoer een animeerbare mesh met expliciete structuur en coherente beweging, wat voorwaartse inferentie van rigging en beweging voor vervormbare objecten mogelijk maakt. Naast het verenigd ontdekken van rigging en beweging, introduceren we een Motion-DiT-model dat opereert in RigMo's latente ruimte en tonen we aan dat deze structuurbewuste latente representaties op natuurlijke wijze downstreambewegingsgeneratietaken kunnen ondersteunen. Experimenten op DeformingThings4D, Objaverse-XL en TrueBones tonen aan dat RigMo vloeiende, interpreteerbare en fysisch plausibele rigs leert, terwijl het superieure reconstructie en generalisatie op categorieniveau bereikt in vergelijking met bestaande auto-rigging- en vervormingsbaselines. RigMo vestigt een nieuw paradigma voor verenigde, structuurbewuste en schaalbare dynamische 3D-modellering.

English

Despite significant progress in 4D generation, rig and motion, the core structural and dynamic components of animation are typically modeled as separate problems. Existing pipelines rely on ground-truth skeletons and skinning weights for motion generation and treat auto-rigging as an independent process, undermining scalability and interpretability. We present RigMo, a unified generative framework that jointly learns rig and motion directly from raw mesh sequences, without any human-provided rig annotations. RigMo encodes per-vertex deformations into two compact latent spaces: a rig latent that decodes into explicit Gaussian bones and skinning weights, and a motion latent that produces time-varying SE(3) transformations. Together, these outputs define an animatable mesh with explicit structure and coherent motion, enabling feed-forward rig and motion inference for deformable objects. Beyond unified rig-motion discovery, we introduce a Motion-DiT model operating in RigMo's latent space and demonstrate that these structure-aware latents can naturally support downstream motion generation tasks. Experiments on DeformingThings4D, Objaverse-XL, and TrueBones demonstrate that RigMo learns smooth, interpretable, and physically plausible rigs, while achieving superior reconstruction and category-level generalization compared to existing auto-rigging and deformation baselines. RigMo establishes a new paradigm for unified, structure-aware, and scalable dynamic 3D modeling.

RigMo: Vereniging van Rig- en Bewegingsleren voor Generatieve Animatie

RigMo: Unifying Rig and Motion Learning for Generative Animation

Samenvatting

Support