ChatPaper.aiChatPaper

LitePT: Leichterer und dennoch robusterer Punkt-Transformer

LitePT: Lighter Yet Stronger Point Transformer

December 15, 2025
papers.authors: Yuanwen Yue, Damien Robert, Jianyuan Wang, Sunghwan Hong, Jan Dirk Wegner, Christian Rupprecht, Konrad Schindler
cs.AI

papers.abstract

Moderne neuronale Architekturen zur Verarbeitung von 3D-Punktwolken enthalten sowohl Faltungsschichten als auch Attention-Blöcke, doch die beste Art, diese zu kombinieren, ist nach wie vor unklar. Wir analysieren die Rolle verschiedener Berechnungsblöcke in 3D-Punktwolken-Netzwerken und finden ein intuitives Verhalten: Faltungen eignen sich gut, um niedrigstufige Geometrie mit hoher Auflösung in frühen Schichten zu extrahieren, wo Attention ohne Vorteile zu bringen zu rechenaufwändig ist; Attention erfasst hochstufige Semantik und Kontext in tiefen Schichten mit niedriger Auflösung effizienter. Angeleitet von diesem Designprinzip schlagen wir ein neues, verbessertes 3D-Punktwolken-Backbone vor, das in frühen Stufen Faltungen einsetzt und in tieferen Schichten zu Attention wechselt. Um den Verlust von räumlichen Layout-Informationen beim Entfernen redundanter Faltungsschichten zu vermeiden, führen wir eine neuartige, trainingsfreie 3D-Positionskodierung ein, PointROPE. Das resultierende LitePT-Modell hat 3,6-mal weniger Parameter, ist 2-mal schneller und verbraucht 2-mal weniger Speicher als der state-of-the-art Point Transformer V3, übertrifft oder erreicht dessen Leistung jedoch bei einer Reihe von Aufgaben und Datensätzen. Code und Modelle sind verfügbar unter: https://github.com/prs-eth/LitePT.
English
Modern neural architectures for 3D point cloud processing contain both convolutional layers and attention blocks, but the best way to assemble them remains unclear. We analyse the role of different computational blocks in 3D point cloud networks and find an intuitive behaviour: convolution is adequate to extract low-level geometry at high-resolution in early layers, where attention is expensive without bringing any benefits; attention captures high-level semantics and context in low-resolution, deep layers more efficiently. Guided by this design principle, we propose a new, improved 3D point cloud backbone that employs convolutions in early stages and switches to attention for deeper layers. To avoid the loss of spatial layout information when discarding redundant convolution layers, we introduce a novel, training-free 3D positional encoding, PointROPE. The resulting LitePT model has 3.6times fewer parameters, runs 2times faster, and uses 2times less memory than the state-of-the-art Point Transformer V3, but nonetheless matches or even outperforms it on a range of tasks and datasets. Code and models are available at: https://github.com/prs-eth/LitePT.
PDF32December 17, 2025