DETR n'a pas besoin de conception multi-échelle ou de localité

papers.abstract

Cet article présente un détecteur DETR amélioré qui conserve une nature "simple" : il utilise une carte de caractéristiques à échelle unique et des calculs d'attention croisée globale sans contraintes de localité spécifiques, contrairement aux détecteurs DETR précédents qui réintroduisent des biais inductifs architecturaux de multi-échelle et de localité dans le décodeur. Nous montrons que deux technologies simples sont étonnamment efficaces dans un design simple pour compenser l'absence de cartes de caractéristiques multi-échelles et de contraintes de localité. La première est un terme de biais de position relative boîte-à-pixel (BoxRPB) ajouté à la formulation de l'attention croisée, qui guide efficacement chaque requête à se concentrer sur la région d'objet correspondante tout en offrant une flexibilité d'encodage. La seconde est un pré-entraînement du backbone basé sur la modélisation d'image masquée (MIM), qui aide à apprendre des représentations avec une capacité de localisation fine et s'avère crucial pour remédier aux dépendances sur les cartes de caractéristiques multi-échelles. En intégrant ces technologies et les avancées récentes en matière d'entraînement et de formulation du problème, le DETR "simple" amélioré a montré des améliorations exceptionnelles par rapport au détecteur DETR original. En exploitant le jeu de données Object365 pour le pré-entraînement, il a atteint une précision de 63,9 mAP avec un backbone Swin-L, ce qui est très compétitif par rapport aux détecteurs de pointe qui reposent tous fortement sur des cartes de caractéristiques multi-échelles et l'extraction de caractéristiques basées sur des régions. Le code est disponible à l'adresse https://github.com/impiga/Plain-DETR.

English

This paper presents an improved DETR detector that maintains a "plain" nature: using a single-scale feature map and global cross-attention calculations without specific locality constraints, in contrast to previous leading DETR-based detectors that reintroduce architectural inductive biases of multi-scale and locality into the decoder. We show that two simple technologies are surprisingly effective within a plain design to compensate for the lack of multi-scale feature maps and locality constraints. The first is a box-to-pixel relative position bias (BoxRPB) term added to the cross-attention formulation, which well guides each query to attend to the corresponding object region while also providing encoding flexibility. The second is masked image modeling (MIM)-based backbone pre-training which helps learn representation with fine-grained localization ability and proves crucial for remedying dependencies on the multi-scale feature maps. By incorporating these technologies and recent advancements in training and problem formation, the improved "plain" DETR showed exceptional improvements over the original DETR detector. By leveraging the Object365 dataset for pre-training, it achieved 63.9 mAP accuracy using a Swin-L backbone, which is highly competitive with state-of-the-art detectors which all heavily rely on multi-scale feature maps and region-based feature extraction. Code is available at https://github.com/impiga/Plain-DETR .

DETR n'a pas besoin de conception multi-échelle ou de localité

DETR Doesn't Need Multi-Scale or Locality Design

papers.abstract

Support