Hin zu vielfältigerem und herausfordernderem Pre-Training für Point-Cloud-Lernen: Selbstüberwachte Kreuzrekonstruktion mit entkoppelten Ansichten
Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views
September 1, 2025
papers.authors: Xiangdong Zhang, Shaofeng Zhang, Junchi Yan
cs.AI
papers.abstract
Das Lernen mit Punktwolken, insbesondere auf selbstüberwachte Weise ohne manuelle Labels, hat aufgrund seines potenziellen Nutzens in einer Vielzahl von Anwendungen zunehmend Aufmerksamkeit in den Bereichen Computer Vision und maschinelles Lernen erhalten. Die meisten bestehenden generativen Ansätze für selbstüberwachtes Lernen mit Punktwolken konzentrieren sich darauf, maskierte Punkte aus sichtbaren Punkten innerhalb einer einzelnen Ansicht wiederherzustellen. Da ein Zwei-Ansichten-Vortrainingsparadigma von Natur aus größere Vielfalt und Varianz einführt, könnte es somit anspruchsvolleres und informativeres Vortraining ermöglichen. Inspiriert davon untersuchen wir das Potenzial des Zwei-Ansichten-Lernens in diesem Bereich. In diesem Artikel schlagen wir Point-PQAE vor, ein kreuzrekonstruktives generatives Paradigma, das zunächst zwei entkoppelte Punktwolken/Ansichten erzeugt und dann eine aus der anderen rekonstruiert. Um dieses Ziel zu erreichen, entwickeln wir erstmals einen Crop-Mechanismus zur Erzeugung von Punktwolkenansichten und schlagen weiterhin eine neuartige Positionskodierung vor, um die 3D-Relativposition zwischen den beiden entkoppelten Ansichten darzustellen. Die Kreuzrekonstruktion erhöht die Schwierigkeit des Vortrainings im Vergleich zur Selbstrekonstruktion erheblich, wodurch unsere Methode bisherige Einzelmodalitäts-Selbstrekonstruktionsmethoden im selbstüberwachten 3D-Lernen übertrifft. Konkret übertrifft sie die Selbstrekonstruktions-Baseline (Point-MAE) um 6,5 %, 7,0 % und 6,7 % in drei Varianten von ScanObjectNN mit dem Mlp-Linear-Evaluationsprotokoll. Der Code ist verfügbar unter https://github.com/aHapBean/Point-PQAE.
English
Point cloud learning, especially in a self-supervised way without manual
labels, has gained growing attention in both vision and learning communities
due to its potential utility in a wide range of applications. Most existing
generative approaches for point cloud self-supervised learning focus on
recovering masked points from visible ones within a single view. Recognizing
that a two-view pre-training paradigm inherently introduces greater diversity
and variance, it may thus enable more challenging and informative pre-training.
Inspired by this, we explore the potential of two-view learning in this domain.
In this paper, we propose Point-PQAE, a cross-reconstruction generative
paradigm that first generates two decoupled point clouds/views and then
reconstructs one from the other. To achieve this goal, we develop a crop
mechanism for point cloud view generation for the first time and further
propose a novel positional encoding to represent the 3D relative position
between the two decoupled views. The cross-reconstruction significantly
increases the difficulty of pre-training compared to self-reconstruction, which
enables our method to surpass previous single-modal self-reconstruction methods
in 3D self-supervised learning. Specifically, it outperforms the
self-reconstruction baseline (Point-MAE) by 6.5%, 7.0%, and 6.7% in three
variants of ScanObjectNN with the Mlp-Linear evaluation protocol. The code is
available at https://github.com/aHapBean/Point-PQAE.