Skin Tokens: Uma Representação Compacta e Aprendida para Rigging Autoregressivo Unificado
Skin Tokens: A Learned Compact Representation for Unified Autoregressive Rigging
February 4, 2026
Autores: Jia-peng Zhang, Cheng-Feng Pu, Meng-Hao Guo, Yan-Pei Cao, Shi-Min Hu
cs.AI
Resumo
A rápida proliferação de modelos generativos 3D criou um gargalo crítico nos pipelines de animação: a rigging (criação de estruturas de animação). Os métodos automatizados existentes são fundamentalmente limitados pela sua abordagem à skinning (atribuição de pesos de influência), tratando-a como uma tarefa de regressão mal colocada e de alta dimensionalidade que é ineficiente de otimizar e normalmente é dissociada da geração do esqueleto. Nós postulamos que isto é um problema de representação e introduzimos os SkinTokens: uma representação aprendida, compacta e discreta para pesos de skinning. Ao aproveitar um FSQ-CVAE para capturar a esparsidade intrínseca da skinning, reformulamos a tarefa de uma regressão contínua para um problema mais tratável de previsão de sequência de *tokens*. Esta representação permite o TokenRig, um framework autoregressivo unificado que modela todo o *rig* como uma única sequência de parâmetros esqueléticos e SkinTokens, aprendendo as complexas dependências entre esqueletos e deformações da pele. O modelo unificado é então passível de um estágio de aprendizado por reforço, onde recompensas geométricas e semânticas personalizadas melhoram a generalização para ativos complexos fora da distribuição original. Quantitativamente, a representação SkinTokens leva a uma melhoria de 98% a 133% na precisão da skinning em relação aos métodos state-of-the-art, enquanto o framework completo TokenRig, refinado com RL, melhora a previsão óssea em 17% a 22%. O nosso trabalho apresenta uma abordagem generativa e unificada para a criação de *rigs* que resulta em maior fidelidade e robustez, oferecendo uma solução escalável para um desafio de longa data na criação de conteúdo 3D.
English
The rapid proliferation of generative 3D models has created a critical bottleneck in animation pipelines: rigging. Existing automated methods are fundamentally limited by their approach to skinning, treating it as an ill-posed, high-dimensional regression task that is inefficient to optimize and is typically decoupled from skeleton generation. We posit this is a representation problem and introduce SkinTokens: a learned, compact, and discrete representation for skinning weights. By leveraging an FSQ-CVAE to capture the intrinsic sparsity of skinning, we reframe the task from continuous regression to a more tractable token sequence prediction problem. This representation enables TokenRig, a unified autoregressive framework that models the entire rig as a single sequence of skeletal parameters and SkinTokens, learning the complicated dependencies between skeletons and skin deformations. The unified model is then amenable to a reinforcement learning stage, where tailored geometric and semantic rewards improve generalization to complex, out-of-distribution assets. Quantitatively, the SkinTokens representation leads to a 98%-133% percents improvement in skinning accuracy over state-of-the-art methods, while the full TokenRig framework, refined with RL, enhances bone prediction by 17%-22%. Our work presents a unified, generative approach to rigging that yields higher fidelity and robustness, offering a scalable solution to a long-standing challenge in 3D content creation.