Modelado de Escenas Enmascaradas: Reduciendo la Brecha entre el Aprendizaje Supervisado y el Auto-supervisado en la Comprensión de Escenas 3D
Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding
April 9, 2025
Autores: Pedro Hermosilla, Christian Stippel, Leon Sick
cs.AI
Resumen
El aprendizaje autosupervisado ha transformado la visión por computadora en 2D al permitir que modelos entrenados en grandes conjuntos de datos no anotados proporcionen características versátiles listas para usar, que funcionan de manera similar a los modelos entrenados con etiquetas. Sin embargo, en la comprensión de escenas 3D, los métodos autosupervisados suelen utilizarse únicamente como un paso de inicialización de pesos para el ajuste específico de tareas, lo que limita su utilidad para la extracción de características de propósito general. Este artículo aborda esta limitación al proponer un protocolo de evaluación robusto diseñado específicamente para evaluar la calidad de las características autosupervisadas en la comprensión de escenas 3D. Nuestro protocolo utiliza muestreo de características multi-resolución en modelos jerárquicos para crear representaciones ricas a nivel de puntos que capturan las capacidades semánticas del modelo y, por lo tanto, son adecuadas para su evaluación mediante métodos de sondeo lineal y vecinos más cercanos. Además, presentamos el primer modelo autosupervisado que funciona de manera similar a los modelos supervisados cuando solo se utilizan características listas para usar en una configuración de sondeo lineal. En particular, nuestro modelo se entrena de forma nativa en 3D con un enfoque autosupervisado novedoso basado en un objetivo de Modelado de Escenas Enmascaradas (Masked Scene Modeling), que reconstruye características profundas de parches enmascarados de manera ascendente y está específicamente adaptado a modelos jerárquicos 3D. Nuestros experimentos no solo demuestran que nuestro método alcanza un rendimiento competitivo frente a los modelos supervisados, sino que también supera a los enfoques autosupervisados existentes por un amplio margen. El modelo y el código de entrenamiento están disponibles en nuestro repositorio de Github (https://github.com/phermosilla/msm).
English
Self-supervised learning has transformed 2D computer vision by enabling
models trained on large, unannotated datasets to provide versatile
off-the-shelf features that perform similarly to models trained with labels.
However, in 3D scene understanding, self-supervised methods are typically only
used as a weight initialization step for task-specific fine-tuning, limiting
their utility for general-purpose feature extraction. This paper addresses this
shortcoming by proposing a robust evaluation protocol specifically designed to
assess the quality of self-supervised features for 3D scene understanding. Our
protocol uses multi-resolution feature sampling of hierarchical models to
create rich point-level representations that capture the semantic capabilities
of the model and, hence, are suitable for evaluation with linear probing and
nearest-neighbor methods. Furthermore, we introduce the first self-supervised
model that performs similarly to supervised models when only off-the-shelf
features are used in a linear probing setup. In particular, our model is
trained natively in 3D with a novel self-supervised approach based on a Masked
Scene Modeling objective, which reconstructs deep features of masked patches in
a bottom-up manner and is specifically tailored to hierarchical 3D models. Our
experiments not only demonstrate that our method achieves competitive
performance to supervised models, but also surpasses existing self-supervised
approaches by a large margin. The model and training code can be found at our
Github repository (https://github.com/phermosilla/msm).Summary
AI-Generated Summary