Vers un pré-entraînement plus diversifié et exigeant pour l'apprentissage des nuages de points : Reconstruction croisée auto-supervisée avec vues découplées
Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views
September 1, 2025
papers.authors: Xiangdong Zhang, Shaofeng Zhang, Junchi Yan
cs.AI
papers.abstract
L'apprentissage sur nuages de points, en particulier de manière auto-supervisée sans annotations manuelles, a suscité un intérêt croissant dans les communautés de vision et d'apprentissage en raison de son utilité potentielle dans un large éventail d'applications. La plupart des approches génératives existantes pour l'apprentissage auto-supervisé sur nuages de points se concentrent sur la reconstruction de points masqués à partir de points visibles dans une vue unique. Reconnaissant qu'un paradigme de pré-entraînement à deux vues introduit intrinsèquement une plus grande diversité et variance, il pourrait ainsi permettre un pré-entraînement plus stimulant et informatif. Inspirés par cela, nous explorons le potentiel de l'apprentissage à deux vues dans ce domaine. Dans cet article, nous proposons Point-PQAE, un paradigme génératif de reconstruction croisée qui génère d'abord deux nuages de points/vues découplés, puis reconstruit l'un à partir de l'autre. Pour atteindre cet objectif, nous développons un mécanisme de découpe pour la génération de vues de nuages de points pour la première fois et proposons en outre un nouvel encodage positionnel pour représenter la position relative 3D entre les deux vues découplées. La reconstruction croisée augmente significativement la difficulté du pré-entraînement par rapport à l'auto-reconstruction, ce qui permet à notre méthode de surpasser les méthodes précédentes d'auto-reconstruction mono-modale dans l'apprentissage auto-supervisé 3D. Plus précisément, elle surpasse la base de référence d'auto-reconstruction (Point-MAE) de 6,5 %, 7,0 % et 6,7 % dans trois variantes de ScanObjectNN avec le protocole d'évaluation Mlp-Linear. Le code est disponible à l'adresse https://github.com/aHapBean/Point-PQAE.
English
Point cloud learning, especially in a self-supervised way without manual
labels, has gained growing attention in both vision and learning communities
due to its potential utility in a wide range of applications. Most existing
generative approaches for point cloud self-supervised learning focus on
recovering masked points from visible ones within a single view. Recognizing
that a two-view pre-training paradigm inherently introduces greater diversity
and variance, it may thus enable more challenging and informative pre-training.
Inspired by this, we explore the potential of two-view learning in this domain.
In this paper, we propose Point-PQAE, a cross-reconstruction generative
paradigm that first generates two decoupled point clouds/views and then
reconstructs one from the other. To achieve this goal, we develop a crop
mechanism for point cloud view generation for the first time and further
propose a novel positional encoding to represent the 3D relative position
between the two decoupled views. The cross-reconstruction significantly
increases the difficulty of pre-training compared to self-reconstruction, which
enables our method to surpass previous single-modal self-reconstruction methods
in 3D self-supervised learning. Specifically, it outperforms the
self-reconstruction baseline (Point-MAE) by 6.5%, 7.0%, and 6.7% in three
variants of ScanObjectNN with the Mlp-Linear evaluation protocol. The code is
available at https://github.com/aHapBean/Point-PQAE.