ChatPaper.aiChatPaper

LitePT: Transformador de Puntos Más Ligero pero Más Robusto

LitePT: Lighter Yet Stronger Point Transformer

December 15, 2025
Autores: Yuanwen Yue, Damien Robert, Jianyuan Wang, Sunghwan Hong, Jan Dirk Wegner, Christian Rupprecht, Konrad Schindler
cs.AI

Resumen

Las arquitecturas neuronales modernas para el procesamiento de nubes de puntos 3D contienen tanto capas convolucionales como bloques de atención, pero la mejor forma de ensamblarlos sigue sin estar clara. Analizamos el papel de los diferentes bloques computacionales en las redes de nubes de puntos 3D y encontramos un comportamiento intuitivo: la convolución es adecuada para extraer geometría de bajo nivel a alta resolución en las capas iniciales, donde la atención es costosa sin aportar beneficios; la atención captura semántica de alto nivel y contexto en capas profundas de baja resolución de manera más eficiente. Guiados por este principio de diseño, proponemos un nuevo backbone mejorado para nubes de puntos 3D que emplea convoluciones en las etapas iniciales y cambia a atención para las capas más profundas. Para evitar la pérdida de información de disposición espacial al descartar las capas convolucionales redundantes, introducimos una nueva codificación posicional 3D libre de entrenamiento, PointROPE. El modelo resultante, LitePT, tiene 3.6 veces menos parámetros, funciona 2 veces más rápido y utiliza 2 veces menos memoria que el estado del arte Point Transformer V3, pero aun así iguala o incluso supera su rendimiento en una variedad de tareas y conjuntos de datos. El código y los modelos están disponibles en: https://github.com/prs-eth/LitePT.
English
Modern neural architectures for 3D point cloud processing contain both convolutional layers and attention blocks, but the best way to assemble them remains unclear. We analyse the role of different computational blocks in 3D point cloud networks and find an intuitive behaviour: convolution is adequate to extract low-level geometry at high-resolution in early layers, where attention is expensive without bringing any benefits; attention captures high-level semantics and context in low-resolution, deep layers more efficiently. Guided by this design principle, we propose a new, improved 3D point cloud backbone that employs convolutions in early stages and switches to attention for deeper layers. To avoid the loss of spatial layout information when discarding redundant convolution layers, we introduce a novel, training-free 3D positional encoding, PointROPE. The resulting LitePT model has 3.6times fewer parameters, runs 2times faster, and uses 2times less memory than the state-of-the-art Point Transformer V3, but nonetheless matches or even outperforms it on a range of tasks and datasets. Code and models are available at: https://github.com/prs-eth/LitePT.
PDF32December 17, 2025