Haut-Tokens: Eine gelernte kompakte Darstellung für einheitliche autoregressive Rigging-Verfahren
Skin Tokens: A Learned Compact Representation for Unified Autoregressive Rigging
February 4, 2026
papers.authors: Jia-peng Zhang, Cheng-Feng Pu, Meng-Hao Guo, Yan-Pei Cao, Shi-Min Hu
cs.AI
papers.abstract
Die rasche Verbreitung generativer 3D-Modelle hat einen kritischen Engpass in Animations-Pipelines geschaffen: das Rigging. Bestehende automatisierte Methoden sind grundlegend durch ihren Ansatz für das Skinning limitiert, das sie als ein schlecht gestelltes, hochdimensionales Regressionsproblem behandeln, das ineffizient zu optimieren ist und typischerweise von der Skelettgenerierung entkoppelt wird. Wir postulieren, dass dies ein Darstellungsproblem ist und führen SkinTokens ein: eine gelernte, kompakte und diskrete Darstellung für Skinning-Gewichte. Indem wir ein FSQ-CVAE nutzen, um die intrinsische Sparsity des Skinnings zu erfassen, rahmen wir die Aufgabe von einer kontinuierlichen Regression zu einem handhabbareren Problem der Token-Sequenzvorhersage um. Diese Darstellung ermöglicht TokenRig, einen einheitlichen autoregressiven Rahmen, der das gesamte Rig als eine einzige Sequenz von Skelettparametern und SkinTokens modelliert und die komplexen Abhängigkeiten zwischen Skeletten und Skin-Verformungen lernt. Das vereinheitlichte Modell eignet sich dann für eine Reinforcement-Learning-Phase, in der maßgeschneiderte geometrische und semantische Belohnungen die Generalisierung auf komplexe, außerhalb der Trainingsverteilung liegende Assets verbessern. Quantitativ führt die SkinTokens-Darstellung zu einer Verbesserung der Skinning-Genauigkeit um 98–133 Prozent gegenüber state-of-the-art Methoden, während das vollständige TokenRig-Framework, verfeinert mit RL, die Knochenvorhersage um 17–22 % steigert. Unsere Arbeit stellt einen vereinheitlichten, generativen Ansatz für Rigging vor, der eine höhere Qualität und Robustheit liefert und eine skalierbare Lösung für eine langjährige Herausforderung in der 3D-Inhaltserstellung bietet.
English
The rapid proliferation of generative 3D models has created a critical bottleneck in animation pipelines: rigging. Existing automated methods are fundamentally limited by their approach to skinning, treating it as an ill-posed, high-dimensional regression task that is inefficient to optimize and is typically decoupled from skeleton generation. We posit this is a representation problem and introduce SkinTokens: a learned, compact, and discrete representation for skinning weights. By leveraging an FSQ-CVAE to capture the intrinsic sparsity of skinning, we reframe the task from continuous regression to a more tractable token sequence prediction problem. This representation enables TokenRig, a unified autoregressive framework that models the entire rig as a single sequence of skeletal parameters and SkinTokens, learning the complicated dependencies between skeletons and skin deformations. The unified model is then amenable to a reinforcement learning stage, where tailored geometric and semantic rewards improve generalization to complex, out-of-distribution assets. Quantitatively, the SkinTokens representation leads to a 98%-133% percents improvement in skinning accuracy over state-of-the-art methods, while the full TokenRig framework, refined with RL, enhances bone prediction by 17%-22%. Our work presents a unified, generative approach to rigging that yields higher fidelity and robustness, offering a scalable solution to a long-standing challenge in 3D content creation.