ChatPaper.aiChatPaper

Huidtokens: Een Aangeleerde Compacte Representatie voor Verenigde Autoregressieve Rigging

Skin Tokens: A Learned Compact Representation for Unified Autoregressive Rigging

February 4, 2026
Auteurs: Jia-peng Zhang, Cheng-Feng Pu, Meng-Hao Guo, Yan-Pei Cao, Shi-Min Hu
cs.AI

Samenvatting

De snelle opkomst van generatieve 3D-modellen heeft een kritieke flessenhals in animatiepijplijnen gecreëerd: rigging. Bestaande geautomatiseerde methoden worden fundamenteel beperkt door hun benadering van skinning, waarbij het wordt behandeld als een slecht-gesteld, hoogdimensionaal regressieprobleem dat inefficiënt is om te optimaliseren en doorgaans wordt ontkoppeld van skeletgeneratie. Wij stellen dat dit een representatieprobleem is en introduceren SkinTokens: een aangeleerde, compacte en discrete representatie voor skinning-gewichten. Door gebruik te maken van een FSQ-CVAE om de intrinsieke sparseheid van skinning vast te leggen, herformuleren we de taak van continue regressie naar een beter hanteerbaar probleem van tokenreeksvoorspelling. Deze representatie maakt TokenRig mogelijk, een uniform autoregressief framework dat de volledige rig modelleert als een enkele reeks van skeletparameters en SkinTokens, waarbij de complexe afhankelijkheden tussen skeletten en huidvervormingen worden aangeleerd. Het uniforme model is vervolgens geschikt voor een reinforcement learning-fase, waar op maat gemaakte geometrische en semantieke beloningen de generalisatie naar complexe, buiten-de-verdeling liggende assets verbeteren. Kwantitatief leidt de SkinTokens-representatie tot een verbetering van 98%-133% in skinning-nauwkeurigheid ten opzichte van state-of-the-art methoden, terwijl het volledige TokenRig-framework, verfijnd met RL, de botvoorspelling met 17%-22% verbetert. Ons werk presenteert een uniforme, generatieve benadering voor rigging die resulteert in hogere kwaliteit en robuustheid, en biedt een schaalbare oplossing voor een lang bestaande uitdaging in 3D-contentcreatie.
English
The rapid proliferation of generative 3D models has created a critical bottleneck in animation pipelines: rigging. Existing automated methods are fundamentally limited by their approach to skinning, treating it as an ill-posed, high-dimensional regression task that is inefficient to optimize and is typically decoupled from skeleton generation. We posit this is a representation problem and introduce SkinTokens: a learned, compact, and discrete representation for skinning weights. By leveraging an FSQ-CVAE to capture the intrinsic sparsity of skinning, we reframe the task from continuous regression to a more tractable token sequence prediction problem. This representation enables TokenRig, a unified autoregressive framework that models the entire rig as a single sequence of skeletal parameters and SkinTokens, learning the complicated dependencies between skeletons and skin deformations. The unified model is then amenable to a reinforcement learning stage, where tailored geometric and semantic rewards improve generalization to complex, out-of-distribution assets. Quantitatively, the SkinTokens representation leads to a 98%-133% percents improvement in skinning accuracy over state-of-the-art methods, while the full TokenRig framework, refined with RL, enhances bone prediction by 17%-22%. Our work presents a unified, generative approach to rigging that yields higher fidelity and robustness, offering a scalable solution to a long-standing challenge in 3D content creation.
PDF31February 6, 2026