ChatPaper.aiChatPaper

SK-Adapter: Control Estructural Basado en Esqueletos para la Generación Nativa 3D

SK-Adapter: Skeleton-Based Structural Control for Native 3D Generation

March 14, 2026
Autores: Anbang Wang, Yuzhuo Ao, Shangzhe Wu, Chi-Keung Tang
cs.AI

Resumen

Los modelos generativos nativos 3D han logrado una fidelidad y velocidad notables, pero adolecen de una limitación crítica: la incapacidad de prescribir articulaciones estructurales precisas, donde el control estructural preciso dentro del espacio 3D nativo sigue estando poco explorado. Este artículo propone SK-Adapter, un marco de trabajo sencillo y a la vez altamente eficiente y eficaz que desbloquea la manipulación esquelética precisa para la generación 3D nativa. Yendo más allá de los prompts de texto o imagen, que pueden ser ambiguos para estructuras precisas, tratamos el esqueleto 3D como una señal de control de primera clase. SK-Adapter es una red adaptadora estructural ligera que codifica coordenadas articulares y topología en tokens aprendibles, los cuales se inyectan en el backbone congelado de generación 3D mediante atención cruzada. Este diseño inteligente permite al modelo no solo "atender" efectivamente a restricciones estructurales 3D específicas, sino también preservar sus conocimientos generativos originales. Para salvar la brecha de datos, contribuimos con el conjunto de datos Objaverse-TMS, un conjunto de datos a gran escala de 24k pares texto-malla-esqueleto. Experimentos exhaustivos confirman que nuestro método logra un control estructural robusto mientras preserva la calidad geométrica y textural del modelo base, superando significativamente a los métodos de referencia existentes. Además, extendemos esta capacidad a la edición local 3D, permitiendo la edición específica por región de activos existentes con guía esquelética, lo cual era inalcanzable por métodos anteriores. Página del proyecto: https://sk-adapter.github.io/
English
Native 3D generative models have achieved remarkable fidelity and speed, yet they suffer from a critical limitation: inability to prescribe precise structural articulations, where precise structural control within the native 3D space remains underexplored. This paper proposes SK-Adapter, a simple and yet highly efficient and effective framework that unlocks precise skeletal manipulation for native 3D generation. Moving beyond text or image prompts, which can be ambiguous for precise structure, we treat the 3D skeleton as a first-class control signal. SK-Adapter is a lightweight structural adapter network that encodes joint coordinates and topology into learnable tokens, which are injected into the frozen 3D generation backbone via cross-attention. This smart design allows the model to not only effectively "attend" to specific 3D structural constraints but also preserve its original generative priors. To bridge the data gap, we contribute Objaverse-TMS dataset, a large-scale dataset of 24k text-mesh-skeleton pairs. Extensive experiments confirm that our method achieves robust structural control while preserving the geometry and texture quality of the foundation model, significantly outperforming existing baselines. Furthermore, we extend this capability to local 3D editing, enabling the region specific editing of existing assets with skeletal guidance, which is unattainable by previous methods. Project Page: https://sk-adapter.github.io/
PDF62March 19, 2026