ChatPaper.aiChatPaper

Naar een meer diverse en uitdagende voorbereiding voor puntwolkleren: Zelfgestuurde kruisreconstructie met ontkoppelde weergaven

Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views

September 1, 2025
Auteurs: Xiangdong Zhang, Shaofeng Zhang, Junchi Yan
cs.AI

Samenvatting

Puntenwolkleren, vooral op een zelfgesuperviseerde manier zonder handmatige labels, heeft steeds meer aandacht gekregen in zowel de visuele als de leergemeenschappen vanwege het potentiële nut in een breed scala aan toepassingen. De meeste bestaande generatieve benaderingen voor zelfgesuperviseerd leren van puntenwolken richten zich op het herstellen van gemaskeerde punten vanuit zichtbare punten binnen een enkel beeld. Erkennend dat een tweebeeld voorafgaande trainingsparadigma van nature meer diversiteit en variatie introduceert, kan het dus uitdagendere en informatievere voorafgaande training mogelijk maken. Geïnspireerd door dit idee, verkennen we het potentieel van tweebeeld leren in dit domein. In dit artikel stellen we Point-PQAE voor, een kruisreconstructie generatief paradigma dat eerst twee ontkoppelde puntenwolken/beelden genereert en vervolgens de ene vanuit de andere reconstrueert. Om dit doel te bereiken, ontwikkelen we voor het eerst een crop-mechanisme voor het genereren van puntenwolkbeelden en stellen we verder een nieuwe positionele codering voor om de 3D-relatieve positie tussen de twee ontkoppelde beelden weer te geven. De kruisreconstructie verhoogt de moeilijkheidsgraad van de voorafgaande training aanzienlijk in vergelijking met zelfreconstructie, waardoor onze methode eerdere enkelvoudige zelfreconstructiemethoden in 3D-zelfgesuperviseerd leren overtreft. Specifiek presteert het 6,5%, 7,0% en 6,7% beter dan de zelfreconstructie baseline (Point-MAE) in drie varianten van ScanObjectNN met het Mlp-Linear evaluatieprotocol. De code is beschikbaar op https://github.com/aHapBean/Point-PQAE.
English
Point cloud learning, especially in a self-supervised way without manual labels, has gained growing attention in both vision and learning communities due to its potential utility in a wide range of applications. Most existing generative approaches for point cloud self-supervised learning focus on recovering masked points from visible ones within a single view. Recognizing that a two-view pre-training paradigm inherently introduces greater diversity and variance, it may thus enable more challenging and informative pre-training. Inspired by this, we explore the potential of two-view learning in this domain. In this paper, we propose Point-PQAE, a cross-reconstruction generative paradigm that first generates two decoupled point clouds/views and then reconstructs one from the other. To achieve this goal, we develop a crop mechanism for point cloud view generation for the first time and further propose a novel positional encoding to represent the 3D relative position between the two decoupled views. The cross-reconstruction significantly increases the difficulty of pre-training compared to self-reconstruction, which enables our method to surpass previous single-modal self-reconstruction methods in 3D self-supervised learning. Specifically, it outperforms the self-reconstruction baseline (Point-MAE) by 6.5%, 7.0%, and 6.7% in three variants of ScanObjectNN with the Mlp-Linear evaluation protocol. The code is available at https://github.com/aHapBean/Point-PQAE.
PDF22September 3, 2025