点群学習のためのより多様で挑戦的な事前学習に向けて:分離された視点を用いた自己教師ありクロス再構成
Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views
September 1, 2025
著者: Xiangdong Zhang, Shaofeng Zhang, Junchi Yan
cs.AI
要旨
点群学習、特に手動ラベルなしの自己教師あり学習は、幅広い応用分野での潜在的な有用性から、視覚と学習コミュニティの両方で注目を集めています。既存の点群自己教師あり学習のための生成アプローチの多くは、単一ビュー内の可視点からマスクされた点を復元することに焦点を当てています。二つのビューを用いた事前学習パラダイムは、本質的に多様性と分散を増大させるため、より挑戦的で有益な事前学習を可能にする可能性があります。これに着想を得て、我々はこの領域における二ビュー学習の可能性を探求します。本論文では、Point-PQAEを提案します。これは、最初に二つの分離された点群/ビューを生成し、その後、一方から他方を再構築するクロス再構築生成パラダイムです。この目標を達成するために、我々は初めて点群ビュー生成のためのクロップメカニズムを開発し、さらに二つの分離されたビュー間の3D相対位置を表現する新しい位置エンコーディングを提案します。クロス再構築は、自己再構築と比較して事前学習の難易度を大幅に増加させ、これにより我々の手法は3D自己教師あり学習における従来の単一モーダル自己再構築手法を凌駕します。具体的には、Mlp-Linear評価プロトコルを用いたScanObjectNNの3つのバリエーションにおいて、自己再構築ベースライン(Point-MAE)を6.5%、7.0%、6.7%上回ります。コードはhttps://github.com/aHapBean/Point-PQAEで公開されています。
English
Point cloud learning, especially in a self-supervised way without manual
labels, has gained growing attention in both vision and learning communities
due to its potential utility in a wide range of applications. Most existing
generative approaches for point cloud self-supervised learning focus on
recovering masked points from visible ones within a single view. Recognizing
that a two-view pre-training paradigm inherently introduces greater diversity
and variance, it may thus enable more challenging and informative pre-training.
Inspired by this, we explore the potential of two-view learning in this domain.
In this paper, we propose Point-PQAE, a cross-reconstruction generative
paradigm that first generates two decoupled point clouds/views and then
reconstructs one from the other. To achieve this goal, we develop a crop
mechanism for point cloud view generation for the first time and further
propose a novel positional encoding to represent the 3D relative position
between the two decoupled views. The cross-reconstruction significantly
increases the difficulty of pre-training compared to self-reconstruction, which
enables our method to surpass previous single-modal self-reconstruction methods
in 3D self-supervised learning. Specifically, it outperforms the
self-reconstruction baseline (Point-MAE) by 6.5%, 7.0%, and 6.7% in three
variants of ScanObjectNN with the Mlp-Linear evaluation protocol. The code is
available at https://github.com/aHapBean/Point-PQAE.