ChatPaper.aiChatPaper

DETRはマルチスケール設計や局所性設計を必要としない

DETR Doesn't Need Multi-Scale or Locality Design

August 3, 2023
著者: Yutong Lin, Yuhui Yuan, Zheng Zhang, Chen Li, Nanning Zheng, Han Hu
cs.AI

要旨

本論文では、「プレーン」な性質を維持した改良型DETR検出器を提案する。具体的には、単一スケールの特徴マップと局所性制約のないグローバルなクロスアテンション計算を用いる。これは、デコーダにマルチスケールや局所性といったアーキテクチャ上の帰納的バイアスを再導入する従来の主要なDETRベース検出器とは対照的である。我々は、プレーンな設計において、マルチスケール特徴マップと局所性制約の欠如を補うために、2つのシンプルな技術が驚くほど有効であることを示す。1つ目は、クロスアテンションの定式化に追加されたボックスからピクセルへの相対位置バイアス(BoxRPB)項であり、各クエリが対応するオブジェクト領域に注意を向けるよう適切に導くと同時に、エンコーディングの柔軟性も提供する。2つ目は、マスク画像モデリング(MIM)ベースのバックボーンプリトレーニングであり、細粒度の位置特定能力を備えた表現の学習を助け、マルチスケール特徴マップへの依存を補う上で重要であることが証明された。これらの技術と、トレーニングおよび問題設定における最近の進歩を組み込むことで、改良された「プレーン」DETRは、元のDETR検出器を大幅に上回る性能を示した。Object365データセットを活用したプリトレーニングにより、Swin-Lバックボーンを使用して63.9 mAPの精度を達成し、マルチスケール特徴マップと領域ベースの特徴抽出に大きく依存する最先端の検出器と競合する性能を示した。コードはhttps://github.com/impiga/Plain-DETRで公開されている。
English
This paper presents an improved DETR detector that maintains a "plain" nature: using a single-scale feature map and global cross-attention calculations without specific locality constraints, in contrast to previous leading DETR-based detectors that reintroduce architectural inductive biases of multi-scale and locality into the decoder. We show that two simple technologies are surprisingly effective within a plain design to compensate for the lack of multi-scale feature maps and locality constraints. The first is a box-to-pixel relative position bias (BoxRPB) term added to the cross-attention formulation, which well guides each query to attend to the corresponding object region while also providing encoding flexibility. The second is masked image modeling (MIM)-based backbone pre-training which helps learn representation with fine-grained localization ability and proves crucial for remedying dependencies on the multi-scale feature maps. By incorporating these technologies and recent advancements in training and problem formation, the improved "plain" DETR showed exceptional improvements over the original DETR detector. By leveraging the Object365 dataset for pre-training, it achieved 63.9 mAP accuracy using a Swin-L backbone, which is highly competitive with state-of-the-art detectors which all heavily rely on multi-scale feature maps and region-based feature extraction. Code is available at https://github.com/impiga/Plain-DETR .
PDF80December 15, 2024