LitePT: 더 가볍고 더 강력한 포인트 트랜스포머
LitePT: Lighter Yet Stronger Point Transformer
December 15, 2025
저자: Yuanwen Yue, Damien Robert, Jianyuan Wang, Sunghwan Hong, Jan Dirk Wegner, Christian Rupprecht, Konrad Schindler
cs.AI
초록
3D 포인트 클라우드 처리를 위한 현대적 신경망 아키텍처는 합성곱 계층과 어텐션 블록을 모두 포함하지만, 이를 효과적으로 조합하는 최선의 방법은 여전히 명확하지 않습니다. 본 연구에서는 3D 포인트 클라우드 네트워크에서 다양한 계산 블록의 역할을 분석하고 직관적인 동작 방식을 발견했습니다: 합성곱은 초기 계층에서 고해상도의 저수준 기하학적 특징을 추출하는 데 적합하며, 이 단계에서는 어텐션이 비용만 높일 뿐 이점을 제공하지 않습니다; 반면 어텐션은 저해상도의 깊은 계층에서 고수준 의미론 및 문맥 정보를 더 효율적으로 포착합니다. 이러한 설계 원칙에 기반하여, 우리는 초기 단계에서는 합성곱을 사용하고 깊은 계층으로 갈수록 어텐션으로 전환하는 새로운 개선된 3D 포인트 클라우드 백본을 제안합니다. 중복된 합성곱 계층을 제거할 때 공간 배치 정보의 손실을 방지하기 위해, 훈련이 필요 없는 새로운 3D 위치 인코딩인 PointROPE를 도입했습니다. 그 결과 개발된 LitePT 모델은 최첨단 모델인 Point Transformer V3 대비 매개변수 수가 3.6배 적고, 실행 속도가 2배 빠르며, 메모리 사용량이 2배 적음에도 불구하고, 다양한 작업과 데이터셋에서 동등하거나 더 나은 성능을 보입니다. 코드와 모델은 https://github.com/prs-eth/LitePT에서 이용 가능합니다.
English
Modern neural architectures for 3D point cloud processing contain both convolutional layers and attention blocks, but the best way to assemble them remains unclear. We analyse the role of different computational blocks in 3D point cloud networks and find an intuitive behaviour: convolution is adequate to extract low-level geometry at high-resolution in early layers, where attention is expensive without bringing any benefits; attention captures high-level semantics and context in low-resolution, deep layers more efficiently. Guided by this design principle, we propose a new, improved 3D point cloud backbone that employs convolutions in early stages and switches to attention for deeper layers. To avoid the loss of spatial layout information when discarding redundant convolution layers, we introduce a novel, training-free 3D positional encoding, PointROPE. The resulting LitePT model has 3.6times fewer parameters, runs 2times faster, and uses 2times less memory than the state-of-the-art Point Transformer V3, but nonetheless matches or even outperforms it on a range of tasks and datasets. Code and models are available at: https://github.com/prs-eth/LitePT.