Point Transformer V3: Mais Simples, Mais Rápido, Mais Poderoso
Point Transformer V3: Simpler, Faster, Stronger
December 15, 2023
Autores: Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao
cs.AI
Resumo
Este artigo não tem como objetivo buscar inovação no mecanismo de atenção. Em vez disso, concentra-se em superar as compensações existentes entre precisão e eficiência no contexto do processamento de nuvens de pontos, aproveitando o poder da escala. Inspirados pelos recentes avanços na aprendizagem de representações em grande escala 3D, reconhecemos que o desempenho do modelo é mais influenciado pela escala do que por um design intrincado. Portanto, apresentamos o Point Transformer V3 (PTv3), que prioriza a simplicidade e a eficiência em detrimento da precisão de certos mecanismos que são secundários para o desempenho geral após o escalonamento, como a substituição da busca precisa de vizinhos por KNN por um mapeamento serializado eficiente de vizinhos em nuvens de pontos organizadas com padrões específicos. Esse princípio permite um escalonamento significativo, expandindo o campo receptivo de 16 para 1024 pontos enquanto mantém a eficiência (um aumento de 3x na velocidade de processamento e uma melhoria de 10x na eficiência de memória em comparação com seu predecessor, PTv2). O PTv3 alcança resultados de ponta em mais de 20 tarefas subsequentes que abrangem cenários tanto internos quanto externos. Aprimorado ainda mais com o treinamento conjunto em múltiplos conjuntos de dados, o PTv3 eleva esses resultados a um nível superior.
English
This paper is not motivated to seek innovation within the attention
mechanism. Instead, it focuses on overcoming the existing trade-offs between
accuracy and efficiency within the context of point cloud processing,
leveraging the power of scale. Drawing inspiration from recent advances in 3D
large-scale representation learning, we recognize that model performance is
more influenced by scale than by intricate design. Therefore, we present Point
Transformer V3 (PTv3), which prioritizes simplicity and efficiency over the
accuracy of certain mechanisms that are minor to the overall performance after
scaling, such as replacing the precise neighbor search by KNN with an efficient
serialized neighbor mapping of point clouds organized with specific patterns.
This principle enables significant scaling, expanding the receptive field from
16 to 1024 points while remaining efficient (a 3x increase in processing speed
and a 10x improvement in memory efficiency compared with its predecessor,
PTv2). PTv3 attains state-of-the-art results on over 20 downstream tasks that
span both indoor and outdoor scenarios. Further enhanced with multi-dataset
joint training, PTv3 pushes these results to a higher level.