ChatPaper.aiChatPaper

Токены скина: изученное компактное представление для унифицированной авторегрессионной риггинга

Skin Tokens: A Learned Compact Representation for Unified Autoregressive Rigging

February 4, 2026
Авторы: Jia-peng Zhang, Cheng-Feng Pu, Meng-Hao Guo, Yan-Pei Cao, Shi-Min Hu
cs.AI

Аннотация

Быстрое распространение генеративных 3D-моделей создало критическое узкое место в анимационных конвейерах: риггинг. Существующие автоматизированные методы фундаментально ограничены своим подходом к скиннингу, рассматривая его как некорректную, многомерную регрессионную задачу, которую неэффективно оптимизировать и которая обычно отделена от генерации скелета. Мы предполагаем, что это проблема представления данных и вводим SkinTokens: изученное, компактное и дискретное представление для весов скиннинга. Используя FSQ-CVAE для захвата внутренней разреженности скиннинга, мы переформулируем задачу из непрерывной регрессии в более управляемую проблему предсказания последовательности токенов. Это представление позволяет создать TokenRig — унифицированную авторегрессионную框架, которая моделирует весь риг как единую последовательность параметров скелета и SkinTokens, изучая сложные зависимости между скелетами и скин-деформациями. Затем унифицированная модель становится пригодной для этапа обучения с подкреплением, где специализированные геометрические и семантические вознаграждения улучшают обобщающую способность для сложных активов, выходящих за пределы распределения обучающих данных. Количественно представление SkinTokens приводит к улучшению точности скиннинга на 98–133% по сравнению с современными методами, в то время как полная框架 TokenRig, доработанная с помощью RL, улучшает предсказание костей на 17–22%. Наша работа представляет унифицированный генеративный подход к риггингу, который обеспечивает более высокую точность и устойчивость, предлагая масштабируемое решение давней проблемы в создании 3D-контента.
English
The rapid proliferation of generative 3D models has created a critical bottleneck in animation pipelines: rigging. Existing automated methods are fundamentally limited by their approach to skinning, treating it as an ill-posed, high-dimensional regression task that is inefficient to optimize and is typically decoupled from skeleton generation. We posit this is a representation problem and introduce SkinTokens: a learned, compact, and discrete representation for skinning weights. By leveraging an FSQ-CVAE to capture the intrinsic sparsity of skinning, we reframe the task from continuous regression to a more tractable token sequence prediction problem. This representation enables TokenRig, a unified autoregressive framework that models the entire rig as a single sequence of skeletal parameters and SkinTokens, learning the complicated dependencies between skeletons and skin deformations. The unified model is then amenable to a reinforcement learning stage, where tailored geometric and semantic rewards improve generalization to complex, out-of-distribution assets. Quantitatively, the SkinTokens representation leads to a 98%-133% percents improvement in skinning accuracy over state-of-the-art methods, while the full TokenRig framework, refined with RL, enhances bone prediction by 17%-22%. Our work presents a unified, generative approach to rigging that yields higher fidelity and robustness, offering a scalable solution to a long-standing challenge in 3D content creation.
PDF31February 6, 2026