Vers un pré-entraînement plus diversifié et exigeant pour l'apprentissage des nuages de points : Reconstruction croisée auto-supervisée avec vues découplées

papers.abstract

L'apprentissage sur nuages de points, en particulier de manière auto-supervisée sans annotations manuelles, a suscité un intérêt croissant dans les communautés de vision et d'apprentissage en raison de son utilité potentielle dans un large éventail d'applications. La plupart des approches génératives existantes pour l'apprentissage auto-supervisé sur nuages de points se concentrent sur la reconstruction de points masqués à partir de points visibles dans une vue unique. Reconnaissant qu'un paradigme de pré-entraînement à deux vues introduit intrinsèquement une plus grande diversité et variance, il pourrait ainsi permettre un pré-entraînement plus stimulant et informatif. Inspirés par cela, nous explorons le potentiel de l'apprentissage à deux vues dans ce domaine. Dans cet article, nous proposons Point-PQAE, un paradigme génératif de reconstruction croisée qui génère d'abord deux nuages de points/vues découplés, puis reconstruit l'un à partir de l'autre. Pour atteindre cet objectif, nous développons un mécanisme de découpe pour la génération de vues de nuages de points pour la première fois et proposons en outre un nouvel encodage positionnel pour représenter la position relative 3D entre les deux vues découplées. La reconstruction croisée augmente significativement la difficulté du pré-entraînement par rapport à l'auto-reconstruction, ce qui permet à notre méthode de surpasser les méthodes précédentes d'auto-reconstruction mono-modale dans l'apprentissage auto-supervisé 3D. Plus précisément, elle surpasse la base de référence d'auto-reconstruction (Point-MAE) de 6,5 %, 7,0 % et 6,7 % dans trois variantes de ScanObjectNN avec le protocole d'évaluation Mlp-Linear. Le code est disponible à l'adresse https://github.com/aHapBean/Point-PQAE.

English

Point cloud learning, especially in a self-supervised way without manual labels, has gained growing attention in both vision and learning communities due to its potential utility in a wide range of applications. Most existing generative approaches for point cloud self-supervised learning focus on recovering masked points from visible ones within a single view. Recognizing that a two-view pre-training paradigm inherently introduces greater diversity and variance, it may thus enable more challenging and informative pre-training. Inspired by this, we explore the potential of two-view learning in this domain. In this paper, we propose Point-PQAE, a cross-reconstruction generative paradigm that first generates two decoupled point clouds/views and then reconstructs one from the other. To achieve this goal, we develop a crop mechanism for point cloud view generation for the first time and further propose a novel positional encoding to represent the 3D relative position between the two decoupled views. The cross-reconstruction significantly increases the difficulty of pre-training compared to self-reconstruction, which enables our method to surpass previous single-modal self-reconstruction methods in 3D self-supervised learning. Specifically, it outperforms the self-reconstruction baseline (Point-MAE) by 6.5%, 7.0%, and 6.7% in three variants of ScanObjectNN with the Mlp-Linear evaluation protocol. The code is available at https://github.com/aHapBean/Point-PQAE.

Vers un pré-entraînement plus diversifié et exigeant pour l'apprentissage des nuages de points : Reconstruction croisée auto-supervisée avec vues découplées

Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views

papers.abstract

Support