ChatPaper.aiChatPaper

Verso un Pre-Addestramento Più Diversificato e Sfidante per l'Apprendimento di Nuvole di Punti: Ricostruzione Incrociata Auto-Supervisionata con Viste Disaccoppiate

Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views

September 1, 2025
Autori: Xiangdong Zhang, Shaofeng Zhang, Junchi Yan
cs.AI

Abstract

L'apprendimento su nuvole di punti, in particolare in modo auto-supervisionato senza etichette manuali, ha attirato un'attenzione crescente sia nelle comunità di visione che di apprendimento, grazie alla sua potenziale utilità in un'ampia gamma di applicazioni. La maggior parte degli approcci generativi esistenti per l'apprendimento auto-supervisionato su nuvole di punti si concentra sul recupero di punti mascherati a partire da quelli visibili all'interno di una singola vista. Riconoscendo che un paradigma di pre-addestramento a due viste introduce intrinsecamente una maggiore diversità e varianza, ciò potrebbe quindi consentire un pre-addestramento più impegnativo e informativo. Ispirati da questo, esploriamo il potenziale dell'apprendimento a due viste in questo dominio. In questo articolo, proponiamo Point-PQAE, un paradigma generativo di cross-ricostruzione che prima genera due nuvole di punti/viste disaccoppiate e poi ricostruisce una a partire dall'altra. Per raggiungere questo obiettivo, sviluppiamo per la prima volta un meccanismo di ritaglio per la generazione di viste di nuvole di punti e proponiamo ulteriormente una nuova codifica posizionale per rappresentare la posizione relativa 3D tra le due viste disaccoppiate. La cross-ricostruzione aumenta significativamente la difficoltà del pre-addestramento rispetto all'auto-ricostruzione, il che consente al nostro metodo di superare i precedenti metodi di auto-ricostruzione a modalità singola nell'apprendimento auto-supervisionato 3D. Nello specifico, supera la baseline di auto-ricostruzione (Point-MAE) del 6,5%, 7,0% e 6,7% in tre varianti di ScanObjectNN con il protocollo di valutazione Mlp-Linear. Il codice è disponibile all'indirizzo https://github.com/aHapBean/Point-PQAE.
English
Point cloud learning, especially in a self-supervised way without manual labels, has gained growing attention in both vision and learning communities due to its potential utility in a wide range of applications. Most existing generative approaches for point cloud self-supervised learning focus on recovering masked points from visible ones within a single view. Recognizing that a two-view pre-training paradigm inherently introduces greater diversity and variance, it may thus enable more challenging and informative pre-training. Inspired by this, we explore the potential of two-view learning in this domain. In this paper, we propose Point-PQAE, a cross-reconstruction generative paradigm that first generates two decoupled point clouds/views and then reconstructs one from the other. To achieve this goal, we develop a crop mechanism for point cloud view generation for the first time and further propose a novel positional encoding to represent the 3D relative position between the two decoupled views. The cross-reconstruction significantly increases the difficulty of pre-training compared to self-reconstruction, which enables our method to surpass previous single-modal self-reconstruction methods in 3D self-supervised learning. Specifically, it outperforms the self-reconstruction baseline (Point-MAE) by 6.5%, 7.0%, and 6.7% in three variants of ScanObjectNN with the Mlp-Linear evaluation protocol. The code is available at https://github.com/aHapBean/Point-PQAE.
PDF22September 3, 2025