ChatPaper.aiChatPaper

Jetons de Peau : Une représentation compacte apprise pour le rigging autorégressif unifié

Skin Tokens: A Learned Compact Representation for Unified Autoregressive Rigging

February 4, 2026
papers.authors: Jia-peng Zhang, Cheng-Feng Pu, Meng-Hao Guo, Yan-Pei Cao, Shi-Min Hu
cs.AI

papers.abstract

La prolifération rapide des modèles génératifs 3D a créé un goulot d'étranglement critique dans les pipelines d'animation : le rigging. Les méthodes automatisées existantes sont fondamentalement limitées par leur approche du skinning, le traitant comme une tâche de régression hautement dimensionnelle et mal posée, qui est inefficace à optimiser et généralement découplée de la génération du squelette. Nous postulons qu'il s'agit d'un problème de représentation et introduisons SkinTokens : une représentation apprise, compacte et discrète pour les poids d'enveloppe. En tirant parti d'un FSQ-CVAE pour capturer la sparsité intrinsèque du skinning, nous reformulons la tâche d'une régression continue vers un problème de prédiction de séquence de tokens plus traitable. Cette représentation permet TokenRig, un framework autogressif unifié qui modélise l'intégralité du rig comme une séquence unique de paramètres squelettiques et de SkinTokens, apprenant les dépendances complexes entre les squelettes et les déformations de peau. Le modèle unifié est ensuite propice à une étape d'apprentissage par renforcement, où des récompenses géométriques et sémantiques sur mesure améliorent la généralisation à des assets complexes hors distribution. Quantitativement, la représentation SkinTokens conduit à une amélioration de 98 % à 133 % de la précision du skinning par rapport aux méthodes de l'état de l'art, tandis que le framework complet TokenRig, affiné par RL, améliore la prédiction osseuse de 17 % à 22 %. Notre travail présente une approche générative unifiée du rigging qui offre une fidélité et une robustesse supérieures, proposant une solution évolutive à un défi de longue date dans la création de contenu 3D.
English
The rapid proliferation of generative 3D models has created a critical bottleneck in animation pipelines: rigging. Existing automated methods are fundamentally limited by their approach to skinning, treating it as an ill-posed, high-dimensional regression task that is inefficient to optimize and is typically decoupled from skeleton generation. We posit this is a representation problem and introduce SkinTokens: a learned, compact, and discrete representation for skinning weights. By leveraging an FSQ-CVAE to capture the intrinsic sparsity of skinning, we reframe the task from continuous regression to a more tractable token sequence prediction problem. This representation enables TokenRig, a unified autoregressive framework that models the entire rig as a single sequence of skeletal parameters and SkinTokens, learning the complicated dependencies between skeletons and skin deformations. The unified model is then amenable to a reinforcement learning stage, where tailored geometric and semantic rewards improve generalization to complex, out-of-distribution assets. Quantitatively, the SkinTokens representation leads to a 98%-133% percents improvement in skinning accuracy over state-of-the-art methods, while the full TokenRig framework, refined with RL, enhances bone prediction by 17%-22%. Our work presents a unified, generative approach to rigging that yields higher fidelity and robustness, offering a scalable solution to a long-standing challenge in 3D content creation.
PDF31February 6, 2026