ChatPaper.aiChatPaper

LitePT: Trasformatore di Punti Più Leggero ma Più Forte

LitePT: Lighter Yet Stronger Point Transformer

December 15, 2025
Autori: Yuanwen Yue, Damien Robert, Jianyuan Wang, Sunghwan Hong, Jan Dirk Wegner, Christian Rupprecht, Konrad Schindler
cs.AI

Abstract

Le moderne architetture neurali per l'elaborazione di nuvole di punti 3D contengono sia strati convoluzionali che blocchi di attenzione, ma il modo migliore per assemblarli rimane poco chiaro. Analizziamo il ruolo dei diversi blocchi computazionali nelle reti per nuvole di punti 3D e troviamo un comportamento intuitivo: la convoluzione è adeguata per estrarre geometria di basso livello ad alta risoluzione negli strati iniziali, dove l'attenzione è costosa senza apportare benefici; l'attenzione cattura la semantica di alto livello e il contesto negli strati profondi a bassa risoluzione in modo più efficiente. Guidati da questo principio progettuale, proponiamo una nuova e migliorata backbone per nuvole di punti 3D che utilizza convoluzioni nelle fasi iniziali e passa all'attenzione per gli strati più profondi. Per evitare la perdita di informazioni sul layout spaziale quando si scartano gli strati convoluzionali ridondanti, introduciamo una nuova codifica posizionale 3D, PointROPE, che non richiede addestramento. Il modello LitePT risultante ha 3,6 volte meno parametri, è eseguito 2 volte più velocemente e utilizza 2 volte meno memoria dello state-of-the-art Point Transformer V3, ma comunque lo eguaglia o addirittura lo supera in una serie di attività e dataset. Codice e modelli sono disponibili all'indirizzo: https://github.com/prs-eth/LitePT.
English
Modern neural architectures for 3D point cloud processing contain both convolutional layers and attention blocks, but the best way to assemble them remains unclear. We analyse the role of different computational blocks in 3D point cloud networks and find an intuitive behaviour: convolution is adequate to extract low-level geometry at high-resolution in early layers, where attention is expensive without bringing any benefits; attention captures high-level semantics and context in low-resolution, deep layers more efficiently. Guided by this design principle, we propose a new, improved 3D point cloud backbone that employs convolutions in early stages and switches to attention for deeper layers. To avoid the loss of spatial layout information when discarding redundant convolution layers, we introduce a novel, training-free 3D positional encoding, PointROPE. The resulting LitePT model has 3.6times fewer parameters, runs 2times faster, and uses 2times less memory than the state-of-the-art Point Transformer V3, but nonetheless matches or even outperforms it on a range of tasks and datasets. Code and models are available at: https://github.com/prs-eth/LitePT.
PDF53December 19, 2025