ChatPaper.aiChatPaper

Point Transformer V3: Проще, Быстрее, Мощнее

Point Transformer V3: Simpler, Faster, Stronger

December 15, 2023
Авторы: Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao
cs.AI

Аннотация

Данная работа не ставит своей целью поиск инноваций в механизме внимания. Вместо этого она сосредоточена на преодолении существующих компромиссов между точностью и эффективностью в контексте обработки облаков точек, используя преимущества масштабирования. Вдохновляясь последними достижениями в области обучения крупномасштабных 3D-представлений, мы признаем, что производительность модели в большей степени зависит от масштаба, чем от сложности конструкции. Поэтому мы представляем Point Transformer V3 (PTv3), который отдает приоритет простоте и эффективности перед точностью определенных механизмов, незначительно влияющих на общую производительность после масштабирования, таких как замена точного поиска соседей с помощью KNN на эффективное серийное отображение соседей для облаков точек, организованных по определенным шаблонам. Этот принцип позволяет значительно увеличить масштаб, расширяя рецептивное поле с 16 до 1024 точек, сохраняя при этом высокую эффективность (увеличение скорости обработки в 3 раза и улучшение эффективности использования памяти в 10 раз по сравнению с предшественником, PTv2). PTv3 достигает наилучших результатов на более чем 20 задачах, охватывающих как внутренние, так и внешние сценарии. Дополнительно улучшенный совместным обучением на нескольких наборах данных, PTv3 поднимает эти результаты на новый уровень.
English
This paper is not motivated to seek innovation within the attention mechanism. Instead, it focuses on overcoming the existing trade-offs between accuracy and efficiency within the context of point cloud processing, leveraging the power of scale. Drawing inspiration from recent advances in 3D large-scale representation learning, we recognize that model performance is more influenced by scale than by intricate design. Therefore, we present Point Transformer V3 (PTv3), which prioritizes simplicity and efficiency over the accuracy of certain mechanisms that are minor to the overall performance after scaling, such as replacing the precise neighbor search by KNN with an efficient serialized neighbor mapping of point clouds organized with specific patterns. This principle enables significant scaling, expanding the receptive field from 16 to 1024 points while remaining efficient (a 3x increase in processing speed and a 10x improvement in memory efficiency compared with its predecessor, PTv2). PTv3 attains state-of-the-art results on over 20 downstream tasks that span both indoor and outdoor scenarios. Further enhanced with multi-dataset joint training, PTv3 pushes these results to a higher level.
PDF202December 15, 2024