ChatPaper.aiChatPaper

스킨 토큰: 자동회귀적 리깅 통합을 위한 학습 기반 컴팩트 표현

Skin Tokens: A Learned Compact Representation for Unified Autoregressive Rigging

February 4, 2026
저자: Jia-peng Zhang, Cheng-Feng Pu, Meng-Hao Guo, Yan-Pei Cao, Shi-Min Hu
cs.AI

초록

생성적 3D 모델의 급속한 확산은 애니메이션 파이프라인에서 리깅이라는 중요한 병목 현상을 야기했습니다. 기존 자동화 방법은 스키닝을 비정형적인 고차원 회귀 문제로 접근하는 근본적 한계로 인해 최적화가 비효율적이며, 일반적으로 골격 생성과 분리되어 있습니다. 우리는 이것이 표현 방식의 문제라고 보고 스키닝 가중치를 위한 학습된 간결하고 이산적인 표현인 SkinTokens를 제안합니다. FSQ-CVAE를 활용하여 스키닝의 내재적 희소성을 포착함으로써, 과제를 연속 회귀 문제에서 더 다루기 쉬운 토큰 시퀀스 예측 문제로 재구성합니다. 이 표현은 전체 리그를 골격 매개변수와 SkinTokens의 단일 시퀀스로 모델링하여 골격과 스킨 변형 간의 복잡한 의존 관계를 학습하는 통합 자기회귀 프레임워크인 TokenRig를 가능하게 합니다. 이 통합 모델은 맞춤형 기하학적 및 의미론적 보상을 통해 복잡한 분포 외 자산에 대한 일반화를 개선하는 강화 학습 단계에 적용 가능합니다. 정량적으로 SkinTokens 표현은 최신 방법 대비 스키닝 정확도에서 98%~133%의 향상을 가져왔으며, RL로 정제된 전체 TokenRig 프레임워크는 뼈 예측 정확도를 17%~22% 향상시켰습니다. 우리의 연구는 더 높은 정확도와 강건성을 제공하는 통합 생성적 리깅 접근법을 제시하며, 3D 콘텐츠 제작의 오랜 난제에 확장 가능한 해결책을 제시합니다.
English
The rapid proliferation of generative 3D models has created a critical bottleneck in animation pipelines: rigging. Existing automated methods are fundamentally limited by their approach to skinning, treating it as an ill-posed, high-dimensional regression task that is inefficient to optimize and is typically decoupled from skeleton generation. We posit this is a representation problem and introduce SkinTokens: a learned, compact, and discrete representation for skinning weights. By leveraging an FSQ-CVAE to capture the intrinsic sparsity of skinning, we reframe the task from continuous regression to a more tractable token sequence prediction problem. This representation enables TokenRig, a unified autoregressive framework that models the entire rig as a single sequence of skeletal parameters and SkinTokens, learning the complicated dependencies between skeletons and skin deformations. The unified model is then amenable to a reinforcement learning stage, where tailored geometric and semantic rewards improve generalization to complex, out-of-distribution assets. Quantitatively, the SkinTokens representation leads to a 98%-133% percents improvement in skinning accuracy over state-of-the-art methods, while the full TokenRig framework, refined with RL, enhances bone prediction by 17%-22%. Our work presents a unified, generative approach to rigging that yields higher fidelity and robustness, offering a scalable solution to a long-standing challenge in 3D content creation.
PDF31February 6, 2026