ChatPaper.aiChatPaper

LitePT: Более легкий, но мощный точечный трансформер

LitePT: Lighter Yet Stronger Point Transformer

December 15, 2025
Авторы: Yuanwen Yue, Damien Robert, Jianyuan Wang, Sunghwan Hong, Jan Dirk Wegner, Christian Rupprecht, Konrad Schindler
cs.AI

Аннотация

Современные нейросетевые архитектуры для обработки 3D-облаков точек включают как сверточные слои, так и блоки внимания, однако оптимальный способ их компоновки остается неясным. Мы анализируем роль различных вычислительных блоков в сетях для 3D-облаков точек и обнаруживаем интуитивно понятное поведение: свертка адекватно извлекает низкоуровневую геометрию на высоком разрешении в начальных слоях, где внимание является затратным без принесения преимуществ; внимание эффективнее захватывает высокоуровневую семантику и контекст на низком разрешении в глубоких слоях. Руководствуясь этим принципом проектирования, мы предлагаем новый улучшенный бэкбон для 3D-облаков точек, который использует свертки на начальных стадиях и переключается на внимание в более глубоких слоях. Чтобы избежать потери информации о пространственной структуре при удалении избыточных сверточных слоев, мы вводим новое, не требующее обучения позиционное кодирование PointROPE. Получившаяся модель LitePT имеет в 3,6 раза меньше параметров, работает в 2 раза быстрее и использует в 2 раза меньше памяти, чем передовая модель Point Transformer V3, но при этом соответствует или даже превосходит ее по производительности на ряде задач и наборов данных. Код и модели доступны по адресу: https://github.com/prs-eth/LitePT.
English
Modern neural architectures for 3D point cloud processing contain both convolutional layers and attention blocks, but the best way to assemble them remains unclear. We analyse the role of different computational blocks in 3D point cloud networks and find an intuitive behaviour: convolution is adequate to extract low-level geometry at high-resolution in early layers, where attention is expensive without bringing any benefits; attention captures high-level semantics and context in low-resolution, deep layers more efficiently. Guided by this design principle, we propose a new, improved 3D point cloud backbone that employs convolutions in early stages and switches to attention for deeper layers. To avoid the loss of spatial layout information when discarding redundant convolution layers, we introduce a novel, training-free 3D positional encoding, PointROPE. The resulting LitePT model has 3.6times fewer parameters, runs 2times faster, and uses 2times less memory than the state-of-the-art Point Transformer V3, but nonetheless matches or even outperforms it on a range of tasks and datasets. Code and models are available at: https://github.com/prs-eth/LitePT.
PDF32December 17, 2025