Point Transformer V3: Più Semplice, Più Veloce, Più Potente

Abstract

Questo articolo non è motivato dalla ricerca di innovazione all'interno del meccanismo di attenzione. Piuttosto, si concentra sul superamento dei compromessi esistenti tra accuratezza ed efficienza nel contesto dell'elaborazione delle nuvole di punti, sfruttando il potere della scala. Traendo ispirazione dai recenti progressi nell'apprendimento di rappresentazioni su larga scala in 3D, riconosciamo che le prestazioni del modello sono più influenzate dalla scala che da un design intricato. Pertanto, presentiamo Point Transformer V3 (PTv3), che privilegia semplicità ed efficienza rispetto all'accuratezza di determinati meccanismi che risultano marginali per le prestazioni complessive dopo il ridimensionamento, come la sostituzione della ricerca precisa dei vicini tramite KNN con una mappatura serializzata efficiente delle nuvole di punti organizzate secondo schemi specifici. Questo principio consente un ridimensionamento significativo, espandendo il campo ricettivo da 16 a 1024 punti mantenendo l'efficienza (un aumento di 3x nella velocità di elaborazione e un miglioramento di 10x nell'efficienza della memoria rispetto al suo predecessore, PTv2). PTv3 raggiunge risultati all'avanguardia in oltre 20 task downstream che coprono sia scenari interni che esterni. Ulteriormente potenziato con l'addestramento congiunto su più dataset, PTv3 spinge questi risultati a un livello superiore.

English

This paper is not motivated to seek innovation within the attention mechanism. Instead, it focuses on overcoming the existing trade-offs between accuracy and efficiency within the context of point cloud processing, leveraging the power of scale. Drawing inspiration from recent advances in 3D large-scale representation learning, we recognize that model performance is more influenced by scale than by intricate design. Therefore, we present Point Transformer V3 (PTv3), which prioritizes simplicity and efficiency over the accuracy of certain mechanisms that are minor to the overall performance after scaling, such as replacing the precise neighbor search by KNN with an efficient serialized neighbor mapping of point clouds organized with specific patterns. This principle enables significant scaling, expanding the receptive field from 16 to 1024 points while remaining efficient (a 3x increase in processing speed and a 10x improvement in memory efficiency compared with its predecessor, PTv2). PTv3 attains state-of-the-art results on over 20 downstream tasks that span both indoor and outdoor scenarios. Further enhanced with multi-dataset joint training, PTv3 pushes these results to a higher level.

Point Transformer V3: Più Semplice, Più Veloce, Più Potente

Point Transformer V3: Simpler, Faster, Stronger

Abstract

Support