DETR не требует многоуровневого или локального подхода в проектировании
DETR Doesn't Need Multi-Scale or Locality Design
August 3, 2023
Авторы: Yutong Lin, Yuhui Yuan, Zheng Zhang, Chen Li, Nanning Zheng, Han Hu
cs.AI
Аннотация
В данной статье представлен усовершенствованный детектор DETR, сохраняющий "простую" природу: он использует одномасштабную карту признаков и глобальные вычисления кросс-внимания без специфических ограничений локальности, в отличие от предыдущих ведущих детекторов на основе DETR, которые вновь вводят архитектурные индуктивные предпосылки многомасштабности и локальности в декодер. Мы показываем, что две простые технологии оказываются удивительно эффективными в рамках простого дизайна для компенсации отсутствия многомасштабных карт признаков и ограничений локальности. Первая — это термин относительного смещения позиции "бокс-к-пикселю" (BoxRPB), добавленный в формулировку кросс-внимания, который эффективно направляет каждый запрос на соответствующую область объекта, одновременно обеспечивая гибкость кодирования. Вторая — предварительное обучение базовой модели на основе маскированного моделирования изображений (MIM), которое помогает изучать представления с возможностью точной локализации и оказывается критически важным для устранения зависимостей от многомасштабных карт признаков. Благодаря внедрению этих технологий и последних достижений в обучении и формулировке задачи, улучшенный "простой" DETR продемонстрировал исключительные улучшения по сравнению с оригинальным детектором DETR. Используя набор данных Object365 для предварительного обучения, он достиг точности 63.9 mAP с базовой моделью Swin-L, что делает его высококонкурентоспособным по сравнению с современными детекторами, которые в значительной степени полагаются на многомасштабные карты признаков и региональное извлечение признаков. Код доступен по адресу https://github.com/impiga/Plain-DETR.
English
This paper presents an improved DETR detector that maintains a "plain"
nature: using a single-scale feature map and global cross-attention
calculations without specific locality constraints, in contrast to previous
leading DETR-based detectors that reintroduce architectural inductive biases of
multi-scale and locality into the decoder. We show that two simple technologies
are surprisingly effective within a plain design to compensate for the lack of
multi-scale feature maps and locality constraints. The first is a box-to-pixel
relative position bias (BoxRPB) term added to the cross-attention formulation,
which well guides each query to attend to the corresponding object region while
also providing encoding flexibility. The second is masked image modeling
(MIM)-based backbone pre-training which helps learn representation with
fine-grained localization ability and proves crucial for remedying dependencies
on the multi-scale feature maps. By incorporating these technologies and recent
advancements in training and problem formation, the improved "plain" DETR
showed exceptional improvements over the original DETR detector. By leveraging
the Object365 dataset for pre-training, it achieved 63.9 mAP accuracy using a
Swin-L backbone, which is highly competitive with state-of-the-art detectors
which all heavily rely on multi-scale feature maps and region-based feature
extraction. Code is available at https://github.com/impiga/Plain-DETR .