SK-Adapter: Controle Estrutural Baseado em Esqueleto para Geração Nativa 3D
SK-Adapter: Skeleton-Based Structural Control for Native 3D Generation
March 14, 2026
Autores: Anbang Wang, Yuzhuo Ao, Shangzhe Wu, Chi-Keung Tang
cs.AI
Resumo
Os modelos generativos nativos 3D alcançaram notável fidelidade e velocidade, mas sofrem de uma limitação crítica: a incapacidade de prescrever articulações estruturais precisas, onde o controle estrutural preciso dentro do espaço 3D nativo permanece pouco explorado. Este artigo propõe o SK-Adapter, uma estrutura simples e altamente eficiente e eficaz que desbloqueia a manipulação esquelética precisa para geração 3D nativa. Indo além de prompts de texto ou imagem, que podem ser ambíguos para estruturas precisas, tratamos o esqueleto 3D como um sinal de controle de primeira classe. O SK-Adapter é uma rede adaptadora estrutural leve que codifica coordenadas e topologia de articulações em tokens aprendíveis, que são injetados no backbone de geração 3D congelado via atenção cruzada. Este design inteligente permite que o modelo não apenas "atenda" efetivamente a restrições estruturais 3D específicas, mas também preserve seus priors generativos originais. Para preencher a lacuna de dados, contribuímos com o conjunto de dados Objaverse-TMS, um conjunto de dados em larga escala de 24 mil pares texto-malha-esqueleto. Experimentos extensivos confirmam que nosso método alcança controle estrutural robusto enquanto preserva a geometria e qualidade de textura do modelo base, superando significativamente as linhas de base existentes. Além disso, estendemos essa capacidade para edição local 3D, permitindo a edição específica por região de ativos existentes com orientação esquelética, o que é inatingível por métodos anteriores. Página do Projeto: https://sk-adapter.github.io/
English
Native 3D generative models have achieved remarkable fidelity and speed, yet they suffer from a critical limitation: inability to prescribe precise structural articulations, where precise structural control within the native 3D space remains underexplored. This paper proposes SK-Adapter, a simple and yet highly efficient and effective framework that unlocks precise skeletal manipulation for native 3D generation. Moving beyond text or image prompts, which can be ambiguous for precise structure, we treat the 3D skeleton as a first-class control signal. SK-Adapter is a lightweight structural adapter network that encodes joint coordinates and topology into learnable tokens, which are injected into the frozen 3D generation backbone via cross-attention. This smart design allows the model to not only effectively "attend" to specific 3D structural constraints but also preserve its original generative priors. To bridge the data gap, we contribute Objaverse-TMS dataset, a large-scale dataset of 24k text-mesh-skeleton pairs. Extensive experiments confirm that our method achieves robust structural control while preserving the geometry and texture quality of the foundation model, significantly outperforming existing baselines. Furthermore, we extend this capability to local 3D editing, enabling the region specific editing of existing assets with skeletal guidance, which is unattainable by previous methods. Project Page: https://sk-adapter.github.io/