ChatPaper.aiChatPaper

Rumo a um Pré-treinamento Mais Diversificado e Desafiador para Aprendizado de Nuvens de Pontos: Reconstrução Cruzada Autossupervisionada com Visões Desacopladas

Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views

September 1, 2025
Autores: Xiangdong Zhang, Shaofeng Zhang, Junchi Yan
cs.AI

Resumo

O aprendizado de nuvens de pontos, especialmente de forma auto-supervisionada sem rótulos manuais, tem ganhado crescente atenção tanto nas comunidades de visão quanto de aprendizado devido ao seu potencial de utilidade em uma ampla gama de aplicações. A maioria das abordagens generativas existentes para aprendizado auto-supervisionado de nuvens de pontos concentra-se em recuperar pontos mascarados a partir dos visíveis em uma única visão. Reconhecendo que um paradigma de pré-treinamento com duas visões introduz inerentemente maior diversidade e variância, ele pode, portanto, permitir um pré-treinamento mais desafiador e informativo. Inspirados por isso, exploramos o potencial do aprendizado com duas visões neste domínio. Neste artigo, propomos o Point-PQAE, um paradigma generativo de reconstrução cruzada que primeiro gera duas nuvens de pontos/visões desacopladas e depois reconstrói uma a partir da outra. Para alcançar esse objetivo, desenvolvemos um mecanismo de corte para geração de visões de nuvens de pontos pela primeira vez e ainda propomos uma nova codificação posicional para representar a posição relativa 3D entre as duas visões desacopladas. A reconstrução cruzada aumenta significativamente a dificuldade do pré-treinamento em comparação com a auto-reconstrução, o que permite que nosso método supere os métodos anteriores de auto-reconstrução unimodal no aprendizado auto-supervisionado 3D. Especificamente, ele supera a linha de base de auto-reconstrução (Point-MAE) em 6,5%, 7,0% e 6,7% em três variantes do ScanObjectNN com o protocolo de avaliação Mlp-Linear. O código está disponível em https://github.com/aHapBean/Point-PQAE.
English
Point cloud learning, especially in a self-supervised way without manual labels, has gained growing attention in both vision and learning communities due to its potential utility in a wide range of applications. Most existing generative approaches for point cloud self-supervised learning focus on recovering masked points from visible ones within a single view. Recognizing that a two-view pre-training paradigm inherently introduces greater diversity and variance, it may thus enable more challenging and informative pre-training. Inspired by this, we explore the potential of two-view learning in this domain. In this paper, we propose Point-PQAE, a cross-reconstruction generative paradigm that first generates two decoupled point clouds/views and then reconstructs one from the other. To achieve this goal, we develop a crop mechanism for point cloud view generation for the first time and further propose a novel positional encoding to represent the 3D relative position between the two decoupled views. The cross-reconstruction significantly increases the difficulty of pre-training compared to self-reconstruction, which enables our method to surpass previous single-modal self-reconstruction methods in 3D self-supervised learning. Specifically, it outperforms the self-reconstruction baseline (Point-MAE) by 6.5%, 7.0%, and 6.7% in three variants of ScanObjectNN with the Mlp-Linear evaluation protocol. The code is available at https://github.com/aHapBean/Point-PQAE.
PDF22September 3, 2025