К более разнообразному и сложному предобучению для работы с облаками точек: самоконтролируемая кросс-реконструкция с разделенными представлениями
Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views
September 1, 2025
Авторы: Xiangdong Zhang, Shaofeng Zhang, Junchi Yan
cs.AI
Аннотация
Обучение на основе точечных облаков, особенно в самообучающемся режиме без ручной разметки, привлекает всё больше внимания как в сообществе компьютерного зрения, так и в области машинного обучения благодаря своему потенциалу в широком спектре приложений. Большинство существующих генеративных подходов для самообучающегося обучения на точечных облаках сосредоточены на восстановлении замаскированных точек на основе видимых в рамках одного представления. Учитывая, что предварительное обучение на основе двух представлений по своей природе вносит больше разнообразия и вариативности, оно может обеспечить более сложное и информативное предварительное обучение. Вдохновленные этим, мы исследуем потенциал обучения на основе двух представлений в данной области. В этой статье мы предлагаем Point-PQAE, кросс-реконструкционную генеративную парадигму, которая сначала генерирует два разделенных точечных облака/представления, а затем восстанавливает одно из другого. Для достижения этой цели мы впервые разрабатываем механизм обрезки для генерации представлений точечных облаков и дополнительно предлагаем новое позиционное кодирование для представления относительного 3D-положения между двумя разделенными представлениями. Кросс-реконструкция значительно увеличивает сложность предварительного обучения по сравнению с самовосстановлением, что позволяет нашему методу превзойти предыдущие методы самовосстановления в рамках одного представления в 3D-самообучающемся обучении. В частности, он превосходит базовый метод самовосстановления (Point-MAE) на 6,5%, 7,0% и 6,7% в трех вариантах ScanObjectNN с протоколом оценки Mlp-Linear. Код доступен по адресу https://github.com/aHapBean/Point-PQAE.
English
Point cloud learning, especially in a self-supervised way without manual
labels, has gained growing attention in both vision and learning communities
due to its potential utility in a wide range of applications. Most existing
generative approaches for point cloud self-supervised learning focus on
recovering masked points from visible ones within a single view. Recognizing
that a two-view pre-training paradigm inherently introduces greater diversity
and variance, it may thus enable more challenging and informative pre-training.
Inspired by this, we explore the potential of two-view learning in this domain.
In this paper, we propose Point-PQAE, a cross-reconstruction generative
paradigm that first generates two decoupled point clouds/views and then
reconstructs one from the other. To achieve this goal, we develop a crop
mechanism for point cloud view generation for the first time and further
propose a novel positional encoding to represent the 3D relative position
between the two decoupled views. The cross-reconstruction significantly
increases the difficulty of pre-training compared to self-reconstruction, which
enables our method to surpass previous single-modal self-reconstruction methods
in 3D self-supervised learning. Specifically, it outperforms the
self-reconstruction baseline (Point-MAE) by 6.5%, 7.0%, and 6.7% in three
variants of ScanObjectNN with the Mlp-Linear evaluation protocol. The code is
available at https://github.com/aHapBean/Point-PQAE.