ChatPaper.aiChatPaper

LitePT: より軽量で強力なポイントトランスフォーマー

LitePT: Lighter Yet Stronger Point Transformer

December 15, 2025
著者: Yuanwen Yue, Damien Robert, Jianyuan Wang, Sunghwan Hong, Jan Dirk Wegner, Christian Rupprecht, Konrad Schindler
cs.AI

要旨

3次元点群処理のための現代的なニューラルネットワークアーキテクチャは、畳み込み層とアテンションブロックの両方を含むが、それらを組み合わせる最良の方法は未だ明らかではない。本研究では、3次元点群ネットワークにおける様々な計算ブロックの役割を分析し、直感的な振る舞いを明らかにする:畳み込みは高解像度の低レベル幾何情報を早期層で抽出するのに適しており、この段階ではアテンションはコストが高いだけで利点がない;アテンションは低解像度の深い層において、高レベルな意味情報と文脈をより効率的に捕捉する。この設計原則に基づき、我々は初期段階では畳み込みを採用し、深い層ではアテンションに切り替える、新たで改良された3次元点群バックボーンを提案する。冗長な畳み込み層を削除する際の空間的レイアウト情報の損失を防ぐため、新規の学習不要な3次元位置符号化法であるPointROPEを導入する。結果として得られるLitePTモデルは、最先端のPoint Transformer V3と比較してパラメータ数が3.6分の1、処理速度が2倍、メモリ使用量が2分の1でありながら、様々なタスクとデータセットにおいて同等またはそれ以上の性能を発揮する。コードとモデルは以下で公開されている:https://github.com/prs-eth/LitePT。
English
Modern neural architectures for 3D point cloud processing contain both convolutional layers and attention blocks, but the best way to assemble them remains unclear. We analyse the role of different computational blocks in 3D point cloud networks and find an intuitive behaviour: convolution is adequate to extract low-level geometry at high-resolution in early layers, where attention is expensive without bringing any benefits; attention captures high-level semantics and context in low-resolution, deep layers more efficiently. Guided by this design principle, we propose a new, improved 3D point cloud backbone that employs convolutions in early stages and switches to attention for deeper layers. To avoid the loss of spatial layout information when discarding redundant convolution layers, we introduce a novel, training-free 3D positional encoding, PointROPE. The resulting LitePT model has 3.6times fewer parameters, runs 2times faster, and uses 2times less memory than the state-of-the-art Point Transformer V3, but nonetheless matches or even outperforms it on a range of tasks and datasets. Code and models are available at: https://github.com/prs-eth/LitePT.
PDF32December 17, 2025