Hacia un Preentrenamiento Más Diverso y Desafiante para el Aprendizaje de Nubes de Puntos: Reconstrucción Cruzada Autosupervisada con Vistas Desacopladas
Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views
September 1, 2025
Autores: Xiangdong Zhang, Shaofeng Zhang, Junchi Yan
cs.AI
Resumen
El aprendizaje de nubes de puntos, especialmente de manera autosupervisada sin etiquetas manuales, ha ganado creciente atención tanto en las comunidades de visión como de aprendizaje debido a su potencial utilidad en una amplia gama de aplicaciones. La mayoría de los enfoques generativos existentes para el aprendizaje autosupervisado de nubes de puntos se centran en recuperar puntos enmascarados a partir de los visibles dentro de una única vista. Reconociendo que un paradigma de preentrenamiento de dos vistas introduce inherentemente una mayor diversidad y variabilidad, esto podría permitir un preentrenamiento más desafiante e informativo. Inspirados por esto, exploramos el potencial del aprendizaje de dos vistas en este dominio. En este artículo, proponemos Point-PQAE, un paradigma generativo de reconstrucción cruzada que primero genera dos nubes de puntos/vistas desacopladas y luego reconstruye una a partir de la otra. Para lograr este objetivo, desarrollamos un mecanismo de recorte para la generación de vistas de nubes de puntos por primera vez y además proponemos una nueva codificación posicional para representar la posición relativa en 3D entre las dos vistas desacopladas. La reconstrucción cruzada aumenta significativamente la dificultad del preentrenamiento en comparación con la autoreconstrucción, lo que permite que nuestro método supere a los métodos anteriores de autoreconstrucción unimodal en el aprendizaje autosupervisado 3D. Específicamente, supera a la línea base de autoreconstrucción (Point-MAE) en un 6.5%, 7.0% y 6.7% en tres variantes de ScanObjectNN con el protocolo de evaluación Mlp-Linear. El código está disponible en https://github.com/aHapBean/Point-PQAE.
English
Point cloud learning, especially in a self-supervised way without manual
labels, has gained growing attention in both vision and learning communities
due to its potential utility in a wide range of applications. Most existing
generative approaches for point cloud self-supervised learning focus on
recovering masked points from visible ones within a single view. Recognizing
that a two-view pre-training paradigm inherently introduces greater diversity
and variance, it may thus enable more challenging and informative pre-training.
Inspired by this, we explore the potential of two-view learning in this domain.
In this paper, we propose Point-PQAE, a cross-reconstruction generative
paradigm that first generates two decoupled point clouds/views and then
reconstructs one from the other. To achieve this goal, we develop a crop
mechanism for point cloud view generation for the first time and further
propose a novel positional encoding to represent the 3D relative position
between the two decoupled views. The cross-reconstruction significantly
increases the difficulty of pre-training compared to self-reconstruction, which
enables our method to surpass previous single-modal self-reconstruction methods
in 3D self-supervised learning. Specifically, it outperforms the
self-reconstruction baseline (Point-MAE) by 6.5%, 7.0%, and 6.7% in three
variants of ScanObjectNN with the Mlp-Linear evaluation protocol. The code is
available at https://github.com/aHapBean/Point-PQAE.