Sonata: Aprendizaje Autosupervisado de Representaciones Confiables de Puntos

Resumen

En este artículo, cuestionamos si contamos con un modelo autosupervisado de nubes de puntos confiable que pueda utilizarse para diversas tareas 3D mediante un simple sondeo lineal, incluso con datos limitados y un mínimo de cómputo. Descubrimos que los enfoques existentes de aprendizaje autosupervisado en 3D no cumplen con las expectativas cuando se evalúa la calidad de las representaciones a través del sondeo lineal. Hipótesis que esto se debe a lo que denominamos el "atajo geométrico", que hace que las representaciones colapsen en características espaciales de bajo nivel. Este desafío es único en 3D y surge de la naturaleza dispersa de los datos de nubes de puntos. Lo abordamos mediante dos estrategias clave: oscurecer la información espacial y aumentar la dependencia de las características de entrada, componiendo finalmente una Sonata de 140k nubes de puntos a través de la auto-distilación. Sonata es simple e intuitivo, pero sus representaciones aprendidas son sólidas y confiables: las visualizaciones de cero disparos demuestran agrupación semántica, junto con un razonamiento espacial fuerte a través de relaciones de vecinos más cercanos. Sonata muestra una eficiencia excepcional en parámetros y datos, triplicando la precisión del sondeo lineal (del 21.8% al 72.5%) en ScanNet y casi duplicando el rendimiento con solo el 1% de los datos en comparación con enfoques anteriores. El ajuste fino completo avanza aún más el estado del arte en tareas de percepción 3D tanto en interiores como en exteriores.

English

In this paper, we question whether we have a reliable self-supervised point cloud model that can be used for diverse 3D tasks via simple linear probing, even with limited data and minimal computation. We find that existing 3D self-supervised learning approaches fall short when evaluated on representation quality through linear probing. We hypothesize that this is due to what we term the "geometric shortcut", which causes representations to collapse to low-level spatial features. This challenge is unique to 3D and arises from the sparse nature of point cloud data. We address it through two key strategies: obscuring spatial information and enhancing the reliance on input features, ultimately composing a Sonata of 140k point clouds through self-distillation. Sonata is simple and intuitive, yet its learned representations are strong and reliable: zero-shot visualizations demonstrate semantic grouping, alongside strong spatial reasoning through nearest-neighbor relationships. Sonata demonstrates exceptional parameter and data efficiency, tripling linear probing accuracy (from 21.8% to 72.5%) on ScanNet and nearly doubling performance with only 1% of the data compared to previous approaches. Full fine-tuning further advances SOTA across both 3D indoor and outdoor perception tasks.