Point Transformer V3: Einfacher, Schneller, Stärker
Point Transformer V3: Simpler, Faster, Stronger
December 15, 2023
Autoren: Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao
cs.AI
Zusammenfassung
Dieses Papier hat nicht das Ziel, Innovationen innerhalb des Aufmerksamkeitsmechanismus zu suchen. Stattdessen konzentriert es sich darauf, die bestehenden Kompromisse zwischen Genauigkeit und Effizienz im Kontext der Punktwolkenverarbeitung zu überwinden, indem es die Kraft der Skalierung nutzt. Inspiriert von den jüngsten Fortschritten im Bereich des großskaligen 3D-Repräsentationslernens erkennen wir, dass die Modellleistung stärker von der Skalierung als von komplexen Designs beeinflusst wird. Daher präsentieren wir Point Transformer V3 (PTv3), der Einfachheit und Effizienz gegenüber der Genauigkeit bestimmter Mechanismen priorisiert, die nach der Skalierung für die Gesamtleistung nur geringfügig relevant sind, wie z. B. das Ersetzen der präzisen Nachbarschaftssuche durch KNN durch eine effiziente serialisierte Nachbarschaftszuordnung von Punktwolken, die mit spezifischen Mustern organisiert sind. Dieses Prinzip ermöglicht eine signifikante Skalierung, wobei das rezeptive Feld von 16 auf 1024 Punkte erweitert wird, während die Effizienz erhalten bleibt (eine 3-fache Steigerung der Verarbeitungsgeschwindigkeit und eine 10-fache Verbesserung der Speichereffizienz im Vergleich zum Vorgänger, PTv2). PTv3 erzielt state-of-the-art Ergebnisse in über 20 Downstream-Aufgaben, die sowohl Innen- als auch Außenszenarien umfassen. Durch eine weitere Verbesserung mit Multi-Dataset-Joint-Training treibt PTv3 diese Ergebnisse auf ein noch höheres Niveau.
English
This paper is not motivated to seek innovation within the attention
mechanism. Instead, it focuses on overcoming the existing trade-offs between
accuracy and efficiency within the context of point cloud processing,
leveraging the power of scale. Drawing inspiration from recent advances in 3D
large-scale representation learning, we recognize that model performance is
more influenced by scale than by intricate design. Therefore, we present Point
Transformer V3 (PTv3), which prioritizes simplicity and efficiency over the
accuracy of certain mechanisms that are minor to the overall performance after
scaling, such as replacing the precise neighbor search by KNN with an efficient
serialized neighbor mapping of point clouds organized with specific patterns.
This principle enables significant scaling, expanding the receptive field from
16 to 1024 points while remaining efficient (a 3x increase in processing speed
and a 10x improvement in memory efficiency compared with its predecessor,
PTv2). PTv3 attains state-of-the-art results on over 20 downstream tasks that
span both indoor and outdoor scenarios. Further enhanced with multi-dataset
joint training, PTv3 pushes these results to a higher level.