ChatPaper.aiChatPaper

Skin Tokens: Una Rappresentazione Compatta Appresa per il Rigging Autoregressivo Unificato

Skin Tokens: A Learned Compact Representation for Unified Autoregressive Rigging

February 4, 2026
Autori: Jia-peng Zhang, Cheng-Feng Pu, Meng-Hao Guo, Yan-Pei Cao, Shi-Min Hu
cs.AI

Abstract

La rapida proliferazione di modelli 3D generativi ha creato un collo di bottiglia critico nelle pipeline di animazione: il rigging. I metodi automatizzati esistenti sono fondamentalmente limitati dal loro approccio allo skinning, trattandolo come un compito di regressione ad alta dimensionalità e mal posto, inefficiente da ottimizzare e tipicamente disaccoppiato dalla generazione dello scheletro. Noi ipotizziamo che si tratti di un problema di rappresentazione e introduciamo SkinTokens: una rappresentazione appresa, compatta e discreta per i pesi di skinning. Sfruttando un FSQ-CVAE per catturare l'intrinseca sparsità dello skinning, riformuliamo il compito da una regressione continua a un problema più gestibile di previsione di sequenze di token. Questa rappresentazione abilita TokenRig, un framework autoregressivo unificato che modella l'intero rig come una singola sequenza di parametri scheletrici e SkinTokens, apprendendo le complesse dipendenze tra scheletri e deformazioni della pelle. Il modello unificato si presta quindi a una fase di apprendimento per rinforzo, in cui ricompense geometriche e semantiche mirate migliorano la generalizzazione ad asset complessi e fuori distribuzione. Quantitativamente, la rappresentazione SkinTokens porta a un miglioramento della precisione dello skinning del 98%-133% rispetto ai metodi all'avanguardia, mentre il framework completo TokenRig, raffinato con RL, migliora la previsione delle ossa del 17%-22%. Il nostro lavoro presenta un approccio generativo e unificato al rigging che produce una fedeltà e una robustezza superiori, offrendo una soluzione scalabile a una sfida di lunga data nella creazione di contenuti 3D.
English
The rapid proliferation of generative 3D models has created a critical bottleneck in animation pipelines: rigging. Existing automated methods are fundamentally limited by their approach to skinning, treating it as an ill-posed, high-dimensional regression task that is inefficient to optimize and is typically decoupled from skeleton generation. We posit this is a representation problem and introduce SkinTokens: a learned, compact, and discrete representation for skinning weights. By leveraging an FSQ-CVAE to capture the intrinsic sparsity of skinning, we reframe the task from continuous regression to a more tractable token sequence prediction problem. This representation enables TokenRig, a unified autoregressive framework that models the entire rig as a single sequence of skeletal parameters and SkinTokens, learning the complicated dependencies between skeletons and skin deformations. The unified model is then amenable to a reinforcement learning stage, where tailored geometric and semantic rewards improve generalization to complex, out-of-distribution assets. Quantitatively, the SkinTokens representation leads to a 98%-133% percents improvement in skinning accuracy over state-of-the-art methods, while the full TokenRig framework, refined with RL, enhances bone prediction by 17%-22%. Our work presents a unified, generative approach to rigging that yields higher fidelity and robustness, offering a scalable solution to a long-standing challenge in 3D content creation.
PDF43February 8, 2026