RigMo: Unificando o Aprendizado de Rig e Movimento para Animação Generativa

Resumo

Apesar dos avanços significativos na geração 4D, a criação de estruturas de controle (rig) e movimento, os componentes estruturais e dinâmicos centrais da animação, são tipicamente modelados como problemas separados. Os *pipelines* existentes dependem de esqueletos e pesos de *skinning* de referência para a geração de movimento e tratam a criação automática de rigs como um processo independente, comprometendo a escalabilidade e a interpretabilidade. Apresentamos o RigMo, uma estrutura generativa unificada que aprende conjuntamente o rig e o movimento diretamente a partir de sequências de malhas brutas, sem qualquer anotação de rig fornecida por humanos. O RigMo codifica as deformações por vértice em dois espaços latentes compactos: um espaço latente de rig, que é decodificado em ossos Gaussianos explícitos e pesos de *skinning*, e um espaço latente de movimento, que produz transformações SE(3) variantes no tempo. Juntas, essas saídas definem uma malha animável com estrutura explícita e movimento coerente, permitindo a inferência direta (*feed-forward*) de rig e movimento para objetos deformáveis. Para além da descoberta unificada de rig e movimento, introduzimos um modelo Motion-DiT que opera no espaço latente do RigMo e demonstramos que esses espaços latentes conscientes da estrutura podem suportar naturalmente tarefas de geração de movimento subsequentes. Experiências no DeformingThings4D, Objaverse-XL e TrueBones demonstram que o RigMo aprende rigs suaves, interpretáveis e fisicamente plausíveis, ao mesmo tempo que alcança uma reconstrução e generalização a nível de categoria superiores em comparação com as linhas de base existentes de criação automática de rigs e deformação. O RigMo estabelece um novo paradigma para a modelação dinâmica 3D unificada, consciente da estrutura e escalável.

English

Despite significant progress in 4D generation, rig and motion, the core structural and dynamic components of animation are typically modeled as separate problems. Existing pipelines rely on ground-truth skeletons and skinning weights for motion generation and treat auto-rigging as an independent process, undermining scalability and interpretability. We present RigMo, a unified generative framework that jointly learns rig and motion directly from raw mesh sequences, without any human-provided rig annotations. RigMo encodes per-vertex deformations into two compact latent spaces: a rig latent that decodes into explicit Gaussian bones and skinning weights, and a motion latent that produces time-varying SE(3) transformations. Together, these outputs define an animatable mesh with explicit structure and coherent motion, enabling feed-forward rig and motion inference for deformable objects. Beyond unified rig-motion discovery, we introduce a Motion-DiT model operating in RigMo's latent space and demonstrate that these structure-aware latents can naturally support downstream motion generation tasks. Experiments on DeformingThings4D, Objaverse-XL, and TrueBones demonstrate that RigMo learns smooth, interpretable, and physically plausible rigs, while achieving superior reconstruction and category-level generalization compared to existing auto-rigging and deformation baselines. RigMo establishes a new paradigm for unified, structure-aware, and scalable dynamic 3D modeling.

RigMo: Unificando o Aprendizado de Rig e Movimento para Animação Generativa

RigMo: Unifying Rig and Motion Learning for Generative Animation

Resumo

Support