DETR n'a pas besoin de conception multi-échelle ou de localité
DETR Doesn't Need Multi-Scale or Locality Design
August 3, 2023
Auteurs: Yutong Lin, Yuhui Yuan, Zheng Zhang, Chen Li, Nanning Zheng, Han Hu
cs.AI
Résumé
Cet article présente un détecteur DETR amélioré qui conserve une nature "simple" : il utilise une carte de caractéristiques à échelle unique et des calculs d'attention croisée globale sans contraintes de localité spécifiques, contrairement aux détecteurs DETR précédents qui réintroduisent des biais inductifs architecturaux de multi-échelle et de localité dans le décodeur. Nous montrons que deux technologies simples sont étonnamment efficaces dans un design simple pour compenser l'absence de cartes de caractéristiques multi-échelles et de contraintes de localité. La première est un terme de biais de position relative boîte-à-pixel (BoxRPB) ajouté à la formulation de l'attention croisée, qui guide efficacement chaque requête à se concentrer sur la région d'objet correspondante tout en offrant une flexibilité d'encodage. La seconde est un pré-entraînement du backbone basé sur la modélisation d'image masquée (MIM), qui aide à apprendre des représentations avec une capacité de localisation fine et s'avère crucial pour remédier aux dépendances sur les cartes de caractéristiques multi-échelles. En intégrant ces technologies et les avancées récentes en matière d'entraînement et de formulation du problème, le DETR "simple" amélioré a montré des améliorations exceptionnelles par rapport au détecteur DETR original. En exploitant le jeu de données Object365 pour le pré-entraînement, il a atteint une précision de 63,9 mAP avec un backbone Swin-L, ce qui est très compétitif par rapport aux détecteurs de pointe qui reposent tous fortement sur des cartes de caractéristiques multi-échelles et l'extraction de caractéristiques basées sur des régions. Le code est disponible à l'adresse https://github.com/impiga/Plain-DETR.
English
This paper presents an improved DETR detector that maintains a "plain"
nature: using a single-scale feature map and global cross-attention
calculations without specific locality constraints, in contrast to previous
leading DETR-based detectors that reintroduce architectural inductive biases of
multi-scale and locality into the decoder. We show that two simple technologies
are surprisingly effective within a plain design to compensate for the lack of
multi-scale feature maps and locality constraints. The first is a box-to-pixel
relative position bias (BoxRPB) term added to the cross-attention formulation,
which well guides each query to attend to the corresponding object region while
also providing encoding flexibility. The second is masked image modeling
(MIM)-based backbone pre-training which helps learn representation with
fine-grained localization ability and proves crucial for remedying dependencies
on the multi-scale feature maps. By incorporating these technologies and recent
advancements in training and problem formation, the improved "plain" DETR
showed exceptional improvements over the original DETR detector. By leveraging
the Object365 dataset for pre-training, it achieved 63.9 mAP accuracy using a
Swin-L backbone, which is highly competitive with state-of-the-art detectors
which all heavily rely on multi-scale feature maps and region-based feature
extraction. Code is available at https://github.com/impiga/Plain-DETR .