ChatPaper.aiChatPaper

Моделирование сцен с маскированием: сокращение разрыва между обучением с учителем и самообучением в понимании 3D-сцен

Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding

April 9, 2025
Авторы: Pedro Hermosilla, Christian Stippel, Leon Sick
cs.AI

Аннотация

Самообучение произвело революцию в двумерной компьютерной зрении, позволив моделям, обученным на больших, неразмеченных наборах данных, предоставлять универсальные готовые функции, которые работают на уровне моделей, обученных с использованием меток. Однако в задачах понимания трехмерных сцен методы самообучения обычно используются только как этап инициализации весов для последующей тонкой настройки под конкретные задачи, что ограничивает их полезность для извлечения общих признаков. В данной статье мы устраняем этот недостаток, предлагая надежный протокол оценки, специально разработанный для проверки качества признаков, полученных с помощью самообучения, в задачах понимания 3D-сцен. Наш протокол использует многоуровневую выборку признаков из иерархических моделей для создания богатых точечных представлений, которые отражают семантические возможности модели и, следовательно, подходят для оценки с помощью линейного зондирования и методов ближайших соседей. Кроме того, мы представляем первую самообучаемую модель, которая демонстрирует результаты, сопоставимые с контролируемыми моделями, когда используются только готовые признаки в рамках линейного зондирования. В частности, наша модель обучается непосредственно в 3D с использованием нового подхода к самообучению, основанного на задаче Masked Scene Modeling, которая восстанавливает глубокие признаки замаскированных участков снизу вверх и специально адаптирована для иерархических 3D-моделей. Наши эксперименты не только показывают, что наш метод достигает конкурентоспособных результатов по сравнению с контролируемыми моделями, но и значительно превосходит существующие подходы к самообучению. Модель и код для обучения доступны в нашем репозитории на GitHub (https://github.com/phermosilla/msm).
English
Self-supervised learning has transformed 2D computer vision by enabling models trained on large, unannotated datasets to provide versatile off-the-shelf features that perform similarly to models trained with labels. However, in 3D scene understanding, self-supervised methods are typically only used as a weight initialization step for task-specific fine-tuning, limiting their utility for general-purpose feature extraction. This paper addresses this shortcoming by proposing a robust evaluation protocol specifically designed to assess the quality of self-supervised features for 3D scene understanding. Our protocol uses multi-resolution feature sampling of hierarchical models to create rich point-level representations that capture the semantic capabilities of the model and, hence, are suitable for evaluation with linear probing and nearest-neighbor methods. Furthermore, we introduce the first self-supervised model that performs similarly to supervised models when only off-the-shelf features are used in a linear probing setup. In particular, our model is trained natively in 3D with a novel self-supervised approach based on a Masked Scene Modeling objective, which reconstructs deep features of masked patches in a bottom-up manner and is specifically tailored to hierarchical 3D models. Our experiments not only demonstrate that our method achieves competitive performance to supervised models, but also surpasses existing self-supervised approaches by a large margin. The model and training code can be found at our Github repository (https://github.com/phermosilla/msm).

Summary

AI-Generated Summary

PDF92April 10, 2025