Point Transformer V3: Más simple, más rápido, más potente
Point Transformer V3: Simpler, Faster, Stronger
December 15, 2023
Autores: Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao
cs.AI
Resumen
Este artículo no tiene como objetivo buscar innovaciones dentro del mecanismo de atención. En su lugar, se centra en superar los compromisos existentes entre precisión y eficiencia en el contexto del procesamiento de nubes de puntos, aprovechando el poder de la escala. Inspirándonos en los avances recientes en el aprendizaje de representaciones a gran escala en 3D, reconocemos que el rendimiento del modelo está más influenciado por la escala que por diseños intrincados. Por lo tanto, presentamos Point Transformer V3 (PTv3), que prioriza la simplicidad y la eficiencia sobre la precisión de ciertos mecanismos que son menores para el rendimiento general después del escalado, como reemplazar la búsqueda precisa de vecinos mediante KNN con un mapeo eficiente de vecinos serializado de nubes de puntos organizadas con patrones específicos. Este principio permite un escalado significativo, expandiendo el campo receptivo de 16 a 1024 puntos mientras se mantiene eficiente (un aumento de 3x en la velocidad de procesamiento y una mejora de 10x en la eficiencia de memoria en comparación con su predecesor, PTv2). PTv3 alcanza resultados de vanguardia en más de 20 tareas posteriores que abarcan escenarios tanto interiores como exteriores. Además, potenciado con entrenamiento conjunto en múltiples conjuntos de datos, PTv3 lleva estos resultados a un nivel superior.
English
This paper is not motivated to seek innovation within the attention
mechanism. Instead, it focuses on overcoming the existing trade-offs between
accuracy and efficiency within the context of point cloud processing,
leveraging the power of scale. Drawing inspiration from recent advances in 3D
large-scale representation learning, we recognize that model performance is
more influenced by scale than by intricate design. Therefore, we present Point
Transformer V3 (PTv3), which prioritizes simplicity and efficiency over the
accuracy of certain mechanisms that are minor to the overall performance after
scaling, such as replacing the precise neighbor search by KNN with an efficient
serialized neighbor mapping of point clouds organized with specific patterns.
This principle enables significant scaling, expanding the receptive field from
16 to 1024 points while remaining efficient (a 3x increase in processing speed
and a 10x improvement in memory efficiency compared with its predecessor,
PTv2). PTv3 attains state-of-the-art results on over 20 downstream tasks that
span both indoor and outdoor scenarios. Further enhanced with multi-dataset
joint training, PTv3 pushes these results to a higher level.