ChatPaper.aiChatPaper

スキントークン:学習に基づくコンパクト表現による統合的自動回帰リギング

Skin Tokens: A Learned Compact Representation for Unified Autoregressive Rigging

February 4, 2026
著者: Jia-peng Zhang, Cheng-Feng Pu, Meng-Hao Guo, Yan-Pei Cao, Shi-Min Hu
cs.AI

要旨

生成的な3Dモデルの急激な普及は、アニメーションパイプラインにおいてリギングという重大なボトルネックを生み出している。既存の自動化手法は、スキニングを非適切で高次元な回帰タスクとして扱うという根本的なアプローチの限界に直面している。この手法は最適化が非効率であり、通常はスケルトン生成から切り離されている。我々は、これは表現の問題であると仮定し、SkinTokensを提案する:スキニングウェイトのための、学習済みでコンパクト、かつ離散的な表現である。FSQ-CVAEを活用してスキニングの内在的なスパース性を捕捉することで、タスクを連続的な回帰から、より扱いやすいトークン系列予測問題へと再定義する。この表現により、リギング全体を骨格パラメータとSkinTokensの単一の系列としてモデル化し、スケルトンとスキン変形の間の複雑な依存関係を学習する、統一された自己回帰フレームワークであるTokenRigが可能となる。この統一モデルは、強化学習ステージに適しており、調整された幾何学的および意味的な報酬によって、複雑な分布外アセットへの汎化性能が向上する。定量的には、SkinTokens表現は、最先端手法と比較してスキニング精度で98%-133%の向上をもたらし、RLで精緻化された完全なTokenRigフレームワークは、ボーン予測を17%-22%向上させる。本研究は、リギングに対する統一された生成的アプローチを提示し、より高い忠実度とロバスト性を実現し、3Dコンテンツ作成における長年の課題に対するスケーラブルな解決策を提供する。
English
The rapid proliferation of generative 3D models has created a critical bottleneck in animation pipelines: rigging. Existing automated methods are fundamentally limited by their approach to skinning, treating it as an ill-posed, high-dimensional regression task that is inefficient to optimize and is typically decoupled from skeleton generation. We posit this is a representation problem and introduce SkinTokens: a learned, compact, and discrete representation for skinning weights. By leveraging an FSQ-CVAE to capture the intrinsic sparsity of skinning, we reframe the task from continuous regression to a more tractable token sequence prediction problem. This representation enables TokenRig, a unified autoregressive framework that models the entire rig as a single sequence of skeletal parameters and SkinTokens, learning the complicated dependencies between skeletons and skin deformations. The unified model is then amenable to a reinforcement learning stage, where tailored geometric and semantic rewards improve generalization to complex, out-of-distribution assets. Quantitatively, the SkinTokens representation leads to a 98%-133% percents improvement in skinning accuracy over state-of-the-art methods, while the full TokenRig framework, refined with RL, enhances bone prediction by 17%-22%. Our work presents a unified, generative approach to rigging that yields higher fidelity and robustness, offering a scalable solution to a long-standing challenge in 3D content creation.
PDF31February 6, 2026