LitePT: Transformador de Pontos Mais Leve e Ainda Mais Forte

Resumo

As arquiteturas neurais modernas para processamento de nuvens de pontos 3D contêm camadas convolucionais e blocos de atenção, mas a melhor forma de combiná-los permanece pouco clara. Analisamos o papel dos diferentes blocos computacionais em redes de nuvens de pontos 3D e encontramos um comportamento intuitivo: a convolução é adequada para extrair geometria de baixo nível em alta resolução nas camadas iniciais, onde a atenção é computacionalmente cara sem trazer benefícios; a atenção captura semântica de alto nível e contexto em camadas profundas de baixa resolução de forma mais eficiente. Guiados por este princípio de design, propomos uma nova e melhorada rede base (*backbone*) para nuvens de pontos 3D que emprega convoluções nas fases iniciais e muda para a atenção nas camadas mais profundas. Para evitar a perda de informação espacial ao descartar as camadas convolucionais redundantes, introduzimos uma nova codificação posicional 3D, isenta de treino, denominada PointROPE. O modelo resultante, LitePT, tem 3,6 vezes menos parâmetros, é executado 2 vezes mais rápido e usa 2 vezes menos memória do que o estado da arte Point Transformer V3, mas mesmo assim iguala ou supera o seu desempenho numa variedade de tarefas e conjuntos de dados. O código e os modelos estão disponíveis em: https://github.com/prs-eth/LitePT.

English

Modern neural architectures for 3D point cloud processing contain both convolutional layers and attention blocks, but the best way to assemble them remains unclear. We analyse the role of different computational blocks in 3D point cloud networks and find an intuitive behaviour: convolution is adequate to extract low-level geometry at high-resolution in early layers, where attention is expensive without bringing any benefits; attention captures high-level semantics and context in low-resolution, deep layers more efficiently. Guided by this design principle, we propose a new, improved 3D point cloud backbone that employs convolutions in early stages and switches to attention for deeper layers. To avoid the loss of spatial layout information when discarding redundant convolution layers, we introduce a novel, training-free 3D positional encoding, PointROPE. The resulting LitePT model has 3.6times fewer parameters, runs 2times faster, and uses 2times less memory than the state-of-the-art Point Transformer V3, but nonetheless matches or even outperforms it on a range of tasks and datasets. Code and models are available at: https://github.com/prs-eth/LitePT.