SK-Adapter: Controllo Strutturale Basato su Scheletro per la Generazione Nativa 3D
SK-Adapter: Skeleton-Based Structural Control for Native 3D Generation
March 14, 2026
Autori: Anbang Wang, Yuzhuo Ao, Shangzhe Wu, Chi-Keung Tang
cs.AI
Abstract
I modelli generativi 3D nativi hanno raggiunto una fedeltà e velocità notevoli, ma soffrono di una limitazione critica: l'incapacità di prescrivere articolazioni strutturali precise, dove il controllo strutturale preciso all'interno dello spazio 3D nativo rimane inesplorato. Questo articolo propone SK-Adapter, un framework semplice ma altamente efficiente ed efficace che sblocca la manipolazione scheletrica precisa per la generazione 3D nativa. Andando oltre i prompt testuali o visivi, che possono essere ambigui per strutture precise, trattiamo lo scheletro 3D come un segnale di controllo di prima classe. SK-Adapter è una rete adattatrice strutturale leggera che codifica le coordinate dei giunti e la topologia in token apprendibili, che vengono iniettati nel backbone di generazione 3D congelato tramite cross-attention. Questo design intelligente permette al modello non solo di "prestare attenzione" efficacemente a vincoli strutturali 3D specifici, ma anche di preservare i suoi priori generativi originali. Per colmare il divario dati, contribuiamo con il dataset Objaverse-TMS, un dataset su larga scala di 24k coppie testo-mesh-scheletro. Esperimenti estensivi confermano che il nostro metodo raggiunge un controllo strutturale robusto preservando la qualità geometrica e tessiturale del modello foundation, superando significativamente i baseline esistenti. Inoltre, estendiamo questa capacità all'editing 3D locale, abilitando la modifica specifica per regione di asset esistenti con guida scheletrica, che era irraggiungibile con i metodi precedenti. Pagina del progetto: https://sk-adapter.github.io/
English
Native 3D generative models have achieved remarkable fidelity and speed, yet they suffer from a critical limitation: inability to prescribe precise structural articulations, where precise structural control within the native 3D space remains underexplored. This paper proposes SK-Adapter, a simple and yet highly efficient and effective framework that unlocks precise skeletal manipulation for native 3D generation. Moving beyond text or image prompts, which can be ambiguous for precise structure, we treat the 3D skeleton as a first-class control signal. SK-Adapter is a lightweight structural adapter network that encodes joint coordinates and topology into learnable tokens, which are injected into the frozen 3D generation backbone via cross-attention. This smart design allows the model to not only effectively "attend" to specific 3D structural constraints but also preserve its original generative priors. To bridge the data gap, we contribute Objaverse-TMS dataset, a large-scale dataset of 24k text-mesh-skeleton pairs. Extensive experiments confirm that our method achieves robust structural control while preserving the geometry and texture quality of the foundation model, significantly outperforming existing baselines. Furthermore, we extend this capability to local 3D editing, enabling the region specific editing of existing assets with skeletal guidance, which is unattainable by previous methods. Project Page: https://sk-adapter.github.io/