DETR не требует многоуровневого или локального подхода в проектировании

Аннотация

В данной статье представлен усовершенствованный детектор DETR, сохраняющий "простую" природу: он использует одномасштабную карту признаков и глобальные вычисления кросс-внимания без специфических ограничений локальности, в отличие от предыдущих ведущих детекторов на основе DETR, которые вновь вводят архитектурные индуктивные предпосылки многомасштабности и локальности в декодер. Мы показываем, что две простые технологии оказываются удивительно эффективными в рамках простого дизайна для компенсации отсутствия многомасштабных карт признаков и ограничений локальности. Первая — это термин относительного смещения позиции "бокс-к-пикселю" (BoxRPB), добавленный в формулировку кросс-внимания, который эффективно направляет каждый запрос на соответствующую область объекта, одновременно обеспечивая гибкость кодирования. Вторая — предварительное обучение базовой модели на основе маскированного моделирования изображений (MIM), которое помогает изучать представления с возможностью точной локализации и оказывается критически важным для устранения зависимостей от многомасштабных карт признаков. Благодаря внедрению этих технологий и последних достижений в обучении и формулировке задачи, улучшенный "простой" DETR продемонстрировал исключительные улучшения по сравнению с оригинальным детектором DETR. Используя набор данных Object365 для предварительного обучения, он достиг точности 63.9 mAP с базовой моделью Swin-L, что делает его высококонкурентоспособным по сравнению с современными детекторами, которые в значительной степени полагаются на многомасштабные карты признаков и региональное извлечение признаков. Код доступен по адресу https://github.com/impiga/Plain-DETR.

English

This paper presents an improved DETR detector that maintains a "plain" nature: using a single-scale feature map and global cross-attention calculations without specific locality constraints, in contrast to previous leading DETR-based detectors that reintroduce architectural inductive biases of multi-scale and locality into the decoder. We show that two simple technologies are surprisingly effective within a plain design to compensate for the lack of multi-scale feature maps and locality constraints. The first is a box-to-pixel relative position bias (BoxRPB) term added to the cross-attention formulation, which well guides each query to attend to the corresponding object region while also providing encoding flexibility. The second is masked image modeling (MIM)-based backbone pre-training which helps learn representation with fine-grained localization ability and proves crucial for remedying dependencies on the multi-scale feature maps. By incorporating these technologies and recent advancements in training and problem formation, the improved "plain" DETR showed exceptional improvements over the original DETR detector. By leveraging the Object365 dataset for pre-training, it achieved 63.9 mAP accuracy using a Swin-L backbone, which is highly competitive with state-of-the-art detectors which all heavily rely on multi-scale feature maps and region-based feature extraction. Code is available at https://github.com/impiga/Plain-DETR .

DETR не требует многоуровневого или локального подхода в проектировании

DETR Doesn't Need Multi-Scale or Locality Design

Аннотация

Support