ChatPaper.aiChatPaper

LitePT : Un transformeur de points plus léger mais plus robuste

LitePT: Lighter Yet Stronger Point Transformer

December 15, 2025
papers.authors: Yuanwen Yue, Damien Robert, Jianyuan Wang, Sunghwan Hong, Jan Dirk Wegner, Christian Rupprecht, Konrad Schindler
cs.AI

papers.abstract

Les architectures neuronales modernes pour le traitement de nuages de points 3D intègrent à la fois des couches convolutionnelles et des blocs d'attention, mais la meilleure façon de les assembler reste incertaine. Nous analysons le rôle des différents blocs computationnels dans les réseaux de nuages de points 3D et observons un comportement intuitif : la convolution est adéquate pour extraire la géométrie de bas niveau à haute résolution dans les couches précoces, où l'attention est coûteuse sans apporter de bénéfices ; l'attention capture plus efficacement la sémantique de haut niveau et le contexte dans les couches profondes à basse résolution. Guidés par ce principe de conception, nous proposons une nouvelle architecture de base améliorée pour nuages de points 3D qui utilise des convolutions dans les premiers stades et passe à l'attention pour les couches plus profondes. Pour éviter la perte d'information de disposition spatiale lors de l'abandon des couches convolutionnelles redondantes, nous introduisons un nouvel encodage positionnel 3D non supervisé, PointROPE. Le modèle résultant, LitePT, présente 3,6 fois moins de paramètres, s'exécute 2 fois plus vite et utilise 2 fois moins de mémoire que le state-of-the-art Point Transformer V3, tout en égalant ou même surpassant ses performances sur une série de tâches et de jeux de données. Le code et les modèles sont disponibles à l'adresse : https://github.com/prs-eth/LitePT.
English
Modern neural architectures for 3D point cloud processing contain both convolutional layers and attention blocks, but the best way to assemble them remains unclear. We analyse the role of different computational blocks in 3D point cloud networks and find an intuitive behaviour: convolution is adequate to extract low-level geometry at high-resolution in early layers, where attention is expensive without bringing any benefits; attention captures high-level semantics and context in low-resolution, deep layers more efficiently. Guided by this design principle, we propose a new, improved 3D point cloud backbone that employs convolutions in early stages and switches to attention for deeper layers. To avoid the loss of spatial layout information when discarding redundant convolution layers, we introduce a novel, training-free 3D positional encoding, PointROPE. The resulting LitePT model has 3.6times fewer parameters, runs 2times faster, and uses 2times less memory than the state-of-the-art Point Transformer V3, but nonetheless matches or even outperforms it on a range of tasks and datasets. Code and models are available at: https://github.com/prs-eth/LitePT.
PDF32December 17, 2025