ChatPaper.aiChatPaper

SK-Adapter: 네이티브 3D 생성을 위한 골격 기반 구조 제어

SK-Adapter: Skeleton-Based Structural Control for Native 3D Generation

March 14, 2026
저자: Anbang Wang, Yuzhuo Ao, Shangzhe Wu, Chi-Keung Tang
cs.AI

초록

네이티브 3D 생성 모델은 놀라운 정확도와 속도를 달성했지만, 중요한 한계점을 지니고 있습니다: 정확한 구조적 관절 구성을 지정할 수 없다는 점으로, 네이티브 3D 공간 내에서의 정밀한 구조 제어는 아직 충분히 연구되지 않았습니다. 본 논문은 네이티브 3D 생성을 위한 정밀한 골격 조작을 가능하게 하는 간단하면서도 매우 효율적이고 효과적인 프레임워크인 SK-Adapter를 제안합니다. 정확한 구조 표현에 있어 모호할 수 있는 텍스트나 이미지 프롬프트를 넘어서, 우리는 3D 골격을 1급 제어 신호로 취급합니다. SK-Adapter는 관절 좌표와 토폴로지를 학습 가능한 토큰으로 인코딩하여 고정된(frozen) 3D 생성 백본에 교차 주의력(cross-attention)을 통해 주입하는 경량 구조적 어댑터 네트워크입니다. 이 영리한 설계는 모델이 특정 3D 구조적 제약에 효과적으로 "주의"를 기울일 수 있을 뿐만 아니라, 원래의 생성 사전 지식(priors)을 보존할 수 있게 합니다. 데이터 격차를 해소하기 위해, 우리는 24k개의 텍스트-메시-골격 쌍으로 구성된 대규모 데이터셋인 Objaverse-TMS 데이터셋을 공개합니다. 광범위한 실험을 통해 우리의 방법이 파운데이션 모델의 기하학적 구조와 텍스처 품질을 보존하면서도 강력한 구조 제어를 달성하며, 기존 베이스라인 방법들을 크게 능가함을 확인했습니다. 더 나아가, 우리는 이 능력을 지역적 3D 편집으로 확장하여 기존 에셋의 특정 영역을 골격 가이드에 따라 편집할 수 있게 하였으며, 이는 기존 방법으로는 달성할 수 없었습니다. 프로젝트 페이지: https://sk-adapter.github.io/
English
Native 3D generative models have achieved remarkable fidelity and speed, yet they suffer from a critical limitation: inability to prescribe precise structural articulations, where precise structural control within the native 3D space remains underexplored. This paper proposes SK-Adapter, a simple and yet highly efficient and effective framework that unlocks precise skeletal manipulation for native 3D generation. Moving beyond text or image prompts, which can be ambiguous for precise structure, we treat the 3D skeleton as a first-class control signal. SK-Adapter is a lightweight structural adapter network that encodes joint coordinates and topology into learnable tokens, which are injected into the frozen 3D generation backbone via cross-attention. This smart design allows the model to not only effectively "attend" to specific 3D structural constraints but also preserve its original generative priors. To bridge the data gap, we contribute Objaverse-TMS dataset, a large-scale dataset of 24k text-mesh-skeleton pairs. Extensive experiments confirm that our method achieves robust structural control while preserving the geometry and texture quality of the foundation model, significantly outperforming existing baselines. Furthermore, we extend this capability to local 3D editing, enabling the region specific editing of existing assets with skeletal guidance, which is unattainable by previous methods. Project Page: https://sk-adapter.github.io/
PDF62March 19, 2026