ChatPaper.aiChatPaper

Tokens de Piel: Una Representación Compacta Aprendida para la Configuración Autoregresiva Unificada

Skin Tokens: A Learned Compact Representation for Unified Autoregressive Rigging

February 4, 2026
Autores: Jia-peng Zhang, Cheng-Feng Pu, Meng-Hao Guo, Yan-Pei Cao, Shi-Min Hu
cs.AI

Resumen

La rápida proliferación de modelos generativos 3D ha creado un cuello de botella crítico en los pipelines de animación: el rigging. Los métodos automatizados existentes están fundamentalmente limitados por su enfoque del skinning, tratándolo como una tarea de regresión mal planteada y de alta dimensionalidad que es ineficiente de optimizar y que normalmente está desacoplada de la generación del esqueleto. Postulamos que esto es un problema de representación e introducimos SkinTokens: una representación aprendida, compacta y discreta para los pesos de skinning. Al aprovechar un FSQ-CVAE para capturar la dispersión intrínseca del skinning, replanteamos la tarea de una regresión continua a un problema más manejable de predicción de secuencias de tokens. Esta representación permite TokenRig, un marco autoregresivo unificado que modela el rig completo como una única secuencia de parámetros esqueléticos y SkinTokens, aprendiendo las complejas dependencias entre esqueletos y deformaciones de la piel. El modelo unificado es entonces susceptible a una etapa de aprendizaje por refuerzo, donde recompensas geométricas y semánticas personalizadas mejoran la generalización a activos complejos fuera de distribución. Cuantitativamente, la representación SkinTokens conduce a una mejora del 98%-133% en la precisión del skinning respecto a los métodos más avanzados, mientras que el marco completo TokenRig, refinado con RL, mejora la predicción de huesos en un 17%-22%. Nuestro trabajo presenta un enfoque generativo y unificado para el rigging que produce una mayor fidelidad y robustez, ofreciendo una solución escalable a un desafío de larga data en la creación de contenido 3D.
English
The rapid proliferation of generative 3D models has created a critical bottleneck in animation pipelines: rigging. Existing automated methods are fundamentally limited by their approach to skinning, treating it as an ill-posed, high-dimensional regression task that is inefficient to optimize and is typically decoupled from skeleton generation. We posit this is a representation problem and introduce SkinTokens: a learned, compact, and discrete representation for skinning weights. By leveraging an FSQ-CVAE to capture the intrinsic sparsity of skinning, we reframe the task from continuous regression to a more tractable token sequence prediction problem. This representation enables TokenRig, a unified autoregressive framework that models the entire rig as a single sequence of skeletal parameters and SkinTokens, learning the complicated dependencies between skeletons and skin deformations. The unified model is then amenable to a reinforcement learning stage, where tailored geometric and semantic rewards improve generalization to complex, out-of-distribution assets. Quantitatively, the SkinTokens representation leads to a 98%-133% percents improvement in skinning accuracy over state-of-the-art methods, while the full TokenRig framework, refined with RL, enhances bone prediction by 17%-22%. Our work presents a unified, generative approach to rigging that yields higher fidelity and robustness, offering a scalable solution to a long-standing challenge in 3D content creation.
PDF31February 6, 2026