ChatPaper.aiChatPaper

RigMo: 生成アニメーションのためのリグとモーション学習の統合

RigMo: Unifying Rig and Motion Learning for Generative Animation

January 10, 2026
著者: Hao Zhang, Jiahao Luo, Bohui Wan, Yizhou Zhao, Zongrui Li, Michael Vasilkovsky, Chaoyang Wang, Jian Wang, Narendra Ahuja, Bing Zhou
cs.AI

要旨

4D生成、リグ、モーションにおいて大きな進展が見られるにもかかわらず、アニメーションの中核をなす構造的・動的構成要素は、通常個別の問題としてモデル化されている。既存のパイプラインは、モーション生成においてグランドトゥルースのスケルトンとスキニングウェイトに依存し、自動リギングを独立したプロセスとして扱うため、拡張性と解釈可能性が損なわれている。本論文では、RigMoを提案する。これは、人間によるリグの注釈を一切必要とせず、生のメッシュシーケンスから直接リグとモーションを共同で学習する統合生成フレームワークである。RigMoは、頂点ごとの変形を二つのコンパクトな潜在空間に符号化する。一つは、明示的なガウスボーンとスキニングウェイトにデコードされるリグ潜在空間、もう一つは時間変化するSE(3)変換を生成するモーション潜在空間である。これらの出力が組み合わさることで、明示的な構造と一貫したモーションを持つアニメーション可能なメッシュが定義され、変形可能なオブジェクトに対するフィードフォワード的なリグとモーションの推論を可能にする。リグとモーションの統合的発見に加えて、我々はRigMoの潜在空間で動作するMotion-DiTモデルを導入し、これらの構造を意識した潜在表現が下流のモーション生成タスクを自然に支援できることを実証する。DeformingThings4D、Objaverse-XL、TrueBonesを用いた実験により、RigMoが滑らかで解釈可能、かつ物理的に妥当なリグを学習するとともに、既存の自動リギングおよび変形ベースライン手法と比較して優れた再構成性能とカテゴリレベルの一般化性能を達成することを示す。RigMoは、統合的、構造意識的、かつ拡張可能な動的3Dモデリングの新たなパラダイムを確立する。
English
Despite significant progress in 4D generation, rig and motion, the core structural and dynamic components of animation are typically modeled as separate problems. Existing pipelines rely on ground-truth skeletons and skinning weights for motion generation and treat auto-rigging as an independent process, undermining scalability and interpretability. We present RigMo, a unified generative framework that jointly learns rig and motion directly from raw mesh sequences, without any human-provided rig annotations. RigMo encodes per-vertex deformations into two compact latent spaces: a rig latent that decodes into explicit Gaussian bones and skinning weights, and a motion latent that produces time-varying SE(3) transformations. Together, these outputs define an animatable mesh with explicit structure and coherent motion, enabling feed-forward rig and motion inference for deformable objects. Beyond unified rig-motion discovery, we introduce a Motion-DiT model operating in RigMo's latent space and demonstrate that these structure-aware latents can naturally support downstream motion generation tasks. Experiments on DeformingThings4D, Objaverse-XL, and TrueBones demonstrate that RigMo learns smooth, interpretable, and physically plausible rigs, while achieving superior reconstruction and category-level generalization compared to existing auto-rigging and deformation baselines. RigMo establishes a new paradigm for unified, structure-aware, and scalable dynamic 3D modeling.
PDF21January 17, 2026