ChatPaper.aiChatPaper

Point Transformer V3 : Plus simple, plus rapide, plus puissant

Point Transformer V3: Simpler, Faster, Stronger

December 15, 2023
Auteurs: Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao
cs.AI

Résumé

Cet article ne vise pas à innover au sein du mécanisme d'attention. Il se concentre plutôt sur la résolution des compromis existants entre précision et efficacité dans le contexte du traitement de nuages de points, en exploitant la puissance de l'échelle. S'inspirant des récentes avancées en apprentissage de représentations 3D à grande échelle, nous reconnaissons que la performance des modèles est davantage influencée par l'échelle que par une conception complexe. Par conséquent, nous présentons Point Transformer V3 (PTv3), qui privilégie la simplicité et l'efficacité plutôt que la précision de certains mécanismes mineurs pour la performance globale après mise à l'échelle, comme le remplacement de la recherche précise de voisins par KNN par un mappage efficace et sérialisé des voisins de nuages de points organisés selon des motifs spécifiques. Ce principe permet une mise à l'échelle significative, étendant le champ réceptif de 16 à 1024 points tout en restant efficace (une augmentation de 3x de la vitesse de traitement et une amélioration de 10x de l'efficacité mémoire par rapport à son prédécesseur, PTv2). PTv3 obtient des résultats de pointe sur plus de 20 tâches en aval couvrant à la fois des scénarios intérieurs et extérieurs. Enrichi par un entraînement conjoint sur plusieurs jeux de données, PTv3 pousse ces résultats à un niveau supérieur.
English
This paper is not motivated to seek innovation within the attention mechanism. Instead, it focuses on overcoming the existing trade-offs between accuracy and efficiency within the context of point cloud processing, leveraging the power of scale. Drawing inspiration from recent advances in 3D large-scale representation learning, we recognize that model performance is more influenced by scale than by intricate design. Therefore, we present Point Transformer V3 (PTv3), which prioritizes simplicity and efficiency over the accuracy of certain mechanisms that are minor to the overall performance after scaling, such as replacing the precise neighbor search by KNN with an efficient serialized neighbor mapping of point clouds organized with specific patterns. This principle enables significant scaling, expanding the receptive field from 16 to 1024 points while remaining efficient (a 3x increase in processing speed and a 10x improvement in memory efficiency compared with its predecessor, PTv2). PTv3 attains state-of-the-art results on over 20 downstream tasks that span both indoor and outdoor scenarios. Further enhanced with multi-dataset joint training, PTv3 pushes these results to a higher level.
PDF202December 15, 2024