Sonata: 信頼性のある点表現の自己教師あり学習
Sonata: Self-Supervised Learning of Reliable Point Representations
March 20, 2025
著者: Xiaoyang Wu, Daniel DeTone, Duncan Frost, Tianwei Shen, Chris Xie, Nan Yang, Jakob Engel, Richard Newcombe, Hengshuang Zhao, Julian Straub
cs.AI
要旨
本論文では、限られたデータと最小限の計算量で、単純な線形プロービングを通じて多様な3Dタスクに使用可能な信頼性の高い自己教師あり点群モデルが存在するかどうかを問いかけます。既存の3D自己教師あり学習手法は、線形プロービングによる表現品質の評価において不十分であることがわかりました。我々は、これが「幾何学的ショートカット」と呼ばれる現象によるものであり、表現が低レベルの空間的特徴に崩壊する原因となっていると仮説を立てました。この課題は3Dに特有であり、点群データの疎な性質から生じます。我々は、空間情報を隠蔽し、入力特徴への依存性を高めるという2つの主要な戦略を通じてこの課題に取り組み、自己蒸留を通じて140k点群のソナタを構成しました。ソナタはシンプルで直感的でありながら、学習された表現は強力で信頼性があります:ゼロショット可視化はセマンティックなグループ化を示し、最近傍関係を通じた強力な空間推論も実証しています。ソナタは、パラメータ効率とデータ効率に優れており、ScanNetでの線形プロービング精度を3倍(21.8%から72.5%に)向上させ、従来の手法と比較してデータの1%のみで性能をほぼ倍増させました。完全なファインチューニングにより、3D室内および屋外知覚タスクの両方でSOTAをさらに進化させました。
English
In this paper, we question whether we have a reliable self-supervised point
cloud model that can be used for diverse 3D tasks via simple linear probing,
even with limited data and minimal computation. We find that existing 3D
self-supervised learning approaches fall short when evaluated on representation
quality through linear probing. We hypothesize that this is due to what we term
the "geometric shortcut", which causes representations to collapse to low-level
spatial features. This challenge is unique to 3D and arises from the sparse
nature of point cloud data. We address it through two key strategies: obscuring
spatial information and enhancing the reliance on input features, ultimately
composing a Sonata of 140k point clouds through self-distillation. Sonata is
simple and intuitive, yet its learned representations are strong and reliable:
zero-shot visualizations demonstrate semantic grouping, alongside strong
spatial reasoning through nearest-neighbor relationships. Sonata demonstrates
exceptional parameter and data efficiency, tripling linear probing accuracy
(from 21.8% to 72.5%) on ScanNet and nearly doubling performance with only 1%
of the data compared to previous approaches. Full fine-tuning further advances
SOTA across both 3D indoor and outdoor perception tasks.Summary
AI-Generated Summary