ChatPaper.aiChatPaper

Hin zu vielfältigerem und herausfordernderem Pre-Training für Point-Cloud-Lernen: Selbstüberwachte Kreuzrekonstruktion mit entkoppelten Ansichten

Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views

September 1, 2025
papers.authors: Xiangdong Zhang, Shaofeng Zhang, Junchi Yan
cs.AI

papers.abstract

Das Lernen mit Punktwolken, insbesondere auf selbstüberwachte Weise ohne manuelle Labels, hat aufgrund seines potenziellen Nutzens in einer Vielzahl von Anwendungen zunehmend Aufmerksamkeit in den Bereichen Computer Vision und maschinelles Lernen erhalten. Die meisten bestehenden generativen Ansätze für selbstüberwachtes Lernen mit Punktwolken konzentrieren sich darauf, maskierte Punkte aus sichtbaren Punkten innerhalb einer einzelnen Ansicht wiederherzustellen. Da ein Zwei-Ansichten-Vortrainingsparadigma von Natur aus größere Vielfalt und Varianz einführt, könnte es somit anspruchsvolleres und informativeres Vortraining ermöglichen. Inspiriert davon untersuchen wir das Potenzial des Zwei-Ansichten-Lernens in diesem Bereich. In diesem Artikel schlagen wir Point-PQAE vor, ein kreuzrekonstruktives generatives Paradigma, das zunächst zwei entkoppelte Punktwolken/Ansichten erzeugt und dann eine aus der anderen rekonstruiert. Um dieses Ziel zu erreichen, entwickeln wir erstmals einen Crop-Mechanismus zur Erzeugung von Punktwolkenansichten und schlagen weiterhin eine neuartige Positionskodierung vor, um die 3D-Relativposition zwischen den beiden entkoppelten Ansichten darzustellen. Die Kreuzrekonstruktion erhöht die Schwierigkeit des Vortrainings im Vergleich zur Selbstrekonstruktion erheblich, wodurch unsere Methode bisherige Einzelmodalitäts-Selbstrekonstruktionsmethoden im selbstüberwachten 3D-Lernen übertrifft. Konkret übertrifft sie die Selbstrekonstruktions-Baseline (Point-MAE) um 6,5 %, 7,0 % und 6,7 % in drei Varianten von ScanObjectNN mit dem Mlp-Linear-Evaluationsprotokoll. Der Code ist verfügbar unter https://github.com/aHapBean/Point-PQAE.
English
Point cloud learning, especially in a self-supervised way without manual labels, has gained growing attention in both vision and learning communities due to its potential utility in a wide range of applications. Most existing generative approaches for point cloud self-supervised learning focus on recovering masked points from visible ones within a single view. Recognizing that a two-view pre-training paradigm inherently introduces greater diversity and variance, it may thus enable more challenging and informative pre-training. Inspired by this, we explore the potential of two-view learning in this domain. In this paper, we propose Point-PQAE, a cross-reconstruction generative paradigm that first generates two decoupled point clouds/views and then reconstructs one from the other. To achieve this goal, we develop a crop mechanism for point cloud view generation for the first time and further propose a novel positional encoding to represent the 3D relative position between the two decoupled views. The cross-reconstruction significantly increases the difficulty of pre-training compared to self-reconstruction, which enables our method to surpass previous single-modal self-reconstruction methods in 3D self-supervised learning. Specifically, it outperforms the self-reconstruction baseline (Point-MAE) by 6.5%, 7.0%, and 6.7% in three variants of ScanObjectNN with the Mlp-Linear evaluation protocol. The code is available at https://github.com/aHapBean/Point-PQAE.
PDF12September 3, 2025