Sonata: Aprendizaje Autosupervisado de Representaciones Confiables de Puntos
Sonata: Self-Supervised Learning of Reliable Point Representations
March 20, 2025
Autores: Xiaoyang Wu, Daniel DeTone, Duncan Frost, Tianwei Shen, Chris Xie, Nan Yang, Jakob Engel, Richard Newcombe, Hengshuang Zhao, Julian Straub
cs.AI
Resumen
En este artículo, cuestionamos si contamos con un modelo autosupervisado de nubes de puntos confiable que pueda utilizarse para diversas tareas 3D mediante un simple sondeo lineal, incluso con datos limitados y un mínimo de cómputo. Descubrimos que los enfoques existentes de aprendizaje autosupervisado en 3D no cumplen con las expectativas cuando se evalúa la calidad de las representaciones a través del sondeo lineal. Hipótesis que esto se debe a lo que denominamos el "atajo geométrico", que hace que las representaciones colapsen en características espaciales de bajo nivel. Este desafío es único en 3D y surge de la naturaleza dispersa de los datos de nubes de puntos. Lo abordamos mediante dos estrategias clave: oscurecer la información espacial y aumentar la dependencia de las características de entrada, componiendo finalmente una Sonata de 140k nubes de puntos a través de la auto-distilación. Sonata es simple e intuitivo, pero sus representaciones aprendidas son sólidas y confiables: las visualizaciones de cero disparos demuestran agrupación semántica, junto con un razonamiento espacial fuerte a través de relaciones de vecinos más cercanos. Sonata muestra una eficiencia excepcional en parámetros y datos, triplicando la precisión del sondeo lineal (del 21.8% al 72.5%) en ScanNet y casi duplicando el rendimiento con solo el 1% de los datos en comparación con enfoques anteriores. El ajuste fino completo avanza aún más el estado del arte en tareas de percepción 3D tanto en interiores como en exteriores.
English
In this paper, we question whether we have a reliable self-supervised point
cloud model that can be used for diverse 3D tasks via simple linear probing,
even with limited data and minimal computation. We find that existing 3D
self-supervised learning approaches fall short when evaluated on representation
quality through linear probing. We hypothesize that this is due to what we term
the "geometric shortcut", which causes representations to collapse to low-level
spatial features. This challenge is unique to 3D and arises from the sparse
nature of point cloud data. We address it through two key strategies: obscuring
spatial information and enhancing the reliance on input features, ultimately
composing a Sonata of 140k point clouds through self-distillation. Sonata is
simple and intuitive, yet its learned representations are strong and reliable:
zero-shot visualizations demonstrate semantic grouping, alongside strong
spatial reasoning through nearest-neighbor relationships. Sonata demonstrates
exceptional parameter and data efficiency, tripling linear probing accuracy
(from 21.8% to 72.5%) on ScanNet and nearly doubling performance with only 1%
of the data compared to previous approaches. Full fine-tuning further advances
SOTA across both 3D indoor and outdoor perception tasks.Summary
AI-Generated Summary