소나타: 신뢰할 수 있는 포인트 표현의 자기 지도 학습
Sonata: Self-Supervised Learning of Reliable Point Representations
March 20, 2025
저자: Xiaoyang Wu, Daniel DeTone, Duncan Frost, Tianwei Shen, Chris Xie, Nan Yang, Jakob Engel, Richard Newcombe, Hengshuang Zhao, Julian Straub
cs.AI
초록
본 논문에서는 제한된 데이터와 최소한의 계산량으로도 간단한 선형 탐색(linear probing)을 통해 다양한 3D 작업에 활용할 수 있는 신뢰할 만한 자기 지도 학습(self-supervised) 포인트 클라우드 모델이 존재하는지에 대해 질문을 던집니다. 우리는 기존의 3D 자기 지도 학습 접근법들이 선형 탐색을 통해 평가된 표현 품질 측면에서 부족함을 발견했습니다. 우리는 이를 "기하학적 지름길(geometric shortcut)"이라고 명명한 현상 때문이라고 가설을 세웠는데, 이는 표현이 저수준의 공간적 특징으로 붕괴되게 만듭니다. 이러한 문제는 3D에 고유하며, 포인트 클라우드 데이터의 희소성에서 비롯됩니다. 우리는 이 문제를 공간 정보를 흐리게 하고 입력 특징에 대한 의존성을 강화하는 두 가지 주요 전략을 통해 해결했으며, 궁극적으로 자기 지식 증류(self-distillation)를 통해 140k 포인트 클라우드로 구성된 Sonata를 만들었습니다. Sonata는 단순하고 직관적이지만, 학습된 표현은 강력하고 신뢰할 만합니다: 제로샷 시각화는 의미론적 그룹화를 보여주며, 최근접 이웃 관계를 통한 강력한 공간 추론 능력을 함께 보여줍니다. Sonata는 탁월한 매개변수 및 데이터 효율성을 입증했는데, ScanNet에서 선형 탐색 정확도를 3배(21.8%에서 72.5%로) 향상시켰으며, 이전 접근법 대비 데이터의 1%만 사용해도 성능을 거의 두 배로 끌어올렸습니다. 전체 미세 조정(full fine-tuning)을 통해 3D 실내 및 실외 인식 작업 모두에서 SOTA(State-of-the-Art)를 더욱 발전시켰습니다.
English
In this paper, we question whether we have a reliable self-supervised point
cloud model that can be used for diverse 3D tasks via simple linear probing,
even with limited data and minimal computation. We find that existing 3D
self-supervised learning approaches fall short when evaluated on representation
quality through linear probing. We hypothesize that this is due to what we term
the "geometric shortcut", which causes representations to collapse to low-level
spatial features. This challenge is unique to 3D and arises from the sparse
nature of point cloud data. We address it through two key strategies: obscuring
spatial information and enhancing the reliance on input features, ultimately
composing a Sonata of 140k point clouds through self-distillation. Sonata is
simple and intuitive, yet its learned representations are strong and reliable:
zero-shot visualizations demonstrate semantic grouping, alongside strong
spatial reasoning through nearest-neighbor relationships. Sonata demonstrates
exceptional parameter and data efficiency, tripling linear probing accuracy
(from 21.8% to 72.5%) on ScanNet and nearly doubling performance with only 1%
of the data compared to previous approaches. Full fine-tuning further advances
SOTA across both 3D indoor and outdoor perception tasks.Summary
AI-Generated Summary