ChatPaper.aiChatPaper

Point Transformer V3: Eenvoudiger, Sneller, Krachtiger

Point Transformer V3: Simpler, Faster, Stronger

December 15, 2023
Auteurs: Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao
cs.AI

Samenvatting

Dit artikel is niet gemotiveerd om innovatie binnen het aandachtmechanisme na te streven. In plaats daarvan richt het zich op het overwinnen van de bestaande afwegingen tussen nauwkeurigheid en efficiëntie binnen de context van puntwolkverwerking, waarbij het de kracht van schaal benut. Geïnspireerd door recente vooruitgang in 3D-representatie leren op grote schaal, erkennen we dat modelprestaties meer worden beïnvloed door schaal dan door ingewikkeld ontwerp. Daarom presenteren we Point Transformer V3 (PTv3), dat eenvoud en efficiëntie voorop stelt boven de nauwkeurigheid van bepaalde mechanismen die minder belangrijk zijn voor de algehele prestaties na schaling, zoals het vervangen van de precieze nabuurschapszoekopdracht door KNN door een efficiënte geserialiseerde nabuurschapsmapping van puntwolken die zijn georganiseerd met specifieke patronen. Dit principe maakt significante schaling mogelijk, waarbij het receptieve veld wordt uitgebreid van 16 naar 1024 punten terwijl het efficiënt blijft (een 3x toename in verwerkingssnelheid en een 10x verbetering in geheugenefficiëntie vergeleken met zijn voorganger, PTv2). PTv3 behaalt state-of-the-art resultaten op meer dan 20 downstream taken die zowel binnen- als buitenscenario's omvatten. Verder verbeterd met gezamenlijke training op meerdere datasets, duwt PTv3 deze resultaten naar een hoger niveau.
English
This paper is not motivated to seek innovation within the attention mechanism. Instead, it focuses on overcoming the existing trade-offs between accuracy and efficiency within the context of point cloud processing, leveraging the power of scale. Drawing inspiration from recent advances in 3D large-scale representation learning, we recognize that model performance is more influenced by scale than by intricate design. Therefore, we present Point Transformer V3 (PTv3), which prioritizes simplicity and efficiency over the accuracy of certain mechanisms that are minor to the overall performance after scaling, such as replacing the precise neighbor search by KNN with an efficient serialized neighbor mapping of point clouds organized with specific patterns. This principle enables significant scaling, expanding the receptive field from 16 to 1024 points while remaining efficient (a 3x increase in processing speed and a 10x improvement in memory efficiency compared with its predecessor, PTv2). PTv3 attains state-of-the-art results on over 20 downstream tasks that span both indoor and outdoor scenarios. Further enhanced with multi-dataset joint training, PTv3 pushes these results to a higher level.
PDF222February 8, 2026