ChatPaper.aiChatPaper

RigMo: 생성적 애니메이션을 위한 리그와 모션 학습의 통합

RigMo: Unifying Rig and Motion Learning for Generative Animation

January 10, 2026
저자: Hao Zhang, Jiahao Luo, Bohui Wan, Yizhou Zhao, Zongrui Li, Michael Vasilkovsky, Chaoyang Wang, Jian Wang, Narendra Ahuja, Bing Zhou
cs.AI

초록

4D 생성, 리그 및 모션 분야에서 상당한 진전이 있었음에도 불구하고, 애니메이션의 핵심 구조적 및 동적 구성 요소는 일반적으로 별개의 문제로 모델링됩니다. 기존 파이프라인은 모션 생성에 실제 골격과 스키닝 가중치에 의존하며, 자동 리깅을 독립적인 과정으로 취급하여 확장성과 해석 가능성을 저해합니다. 본 연구에서는 인간이 제공한 리그 주석 없이 원시 메시 시퀀스로부터 리그와 모션을 직접 공동 학습하는 통합 생성 프레임워크인 RigMo를 제안합니다. RigMo는 정점별 변형을 두 개의 컴팩트 잠재 공간으로 인코딩합니다: 명시적 가우시안 본과 스킨닝 가중치로 디코딩되는 리그 잠재 공간과, 시간에 따라 변화하는 SE(3) 변환을 생성하는 모션 잠재 공간입니다. 이러한 출력 결과들은 명시적 구조와 일관된 모션을 갖춘 애니메이션 가능 메시를 정의하여, 변형 가능 객체에 대한 피드포워드 방식의 리그 및 모션 추론을 가능하게 합니다. 통합 리그-모션 발견을 넘어, RigMo의 잠재 공간에서 작동하는 Motion-DiT 모델을 도입하고 이러한 구조 인식 잠재 표현이 다운스트림 모션 생성 작업을 자연스럽게 지원할 수 있음을 입증합니다. DeformingThings4D, Objaverse-XL 및 TrueBones에 대한 실험을 통해 RigMo가 부드럽고 해석 가능하며 물리적으로 타당한 리그를 학습하는 동시에 기존 자동 리깅 및 변형 베이스라인 대비 우수한 재구성 및 범주 수준 일반화 성능을 달성함을 보여줍니다. RigMo는 통합적이고 구조를 인식하며 확장 가능한 동적 3D 모델링을 위한 새로운 패러다임을 정립합니다.
English
Despite significant progress in 4D generation, rig and motion, the core structural and dynamic components of animation are typically modeled as separate problems. Existing pipelines rely on ground-truth skeletons and skinning weights for motion generation and treat auto-rigging as an independent process, undermining scalability and interpretability. We present RigMo, a unified generative framework that jointly learns rig and motion directly from raw mesh sequences, without any human-provided rig annotations. RigMo encodes per-vertex deformations into two compact latent spaces: a rig latent that decodes into explicit Gaussian bones and skinning weights, and a motion latent that produces time-varying SE(3) transformations. Together, these outputs define an animatable mesh with explicit structure and coherent motion, enabling feed-forward rig and motion inference for deformable objects. Beyond unified rig-motion discovery, we introduce a Motion-DiT model operating in RigMo's latent space and demonstrate that these structure-aware latents can naturally support downstream motion generation tasks. Experiments on DeformingThings4D, Objaverse-XL, and TrueBones demonstrate that RigMo learns smooth, interpretable, and physically plausible rigs, while achieving superior reconstruction and category-level generalization compared to existing auto-rigging and deformation baselines. RigMo establishes a new paradigm for unified, structure-aware, and scalable dynamic 3D modeling.
PDF21January 17, 2026