ChatPaper.aiChatPaper

DETR benötigt kein Multi-Scale- oder Lokalitätsdesign.

DETR Doesn't Need Multi-Scale or Locality Design

August 3, 2023
Autoren: Yutong Lin, Yuhui Yuan, Zheng Zhang, Chen Li, Nanning Zheng, Han Hu
cs.AI

Zusammenfassung

Dieses Papier stellt einen verbesserten DETR-Detektor vor, der einen "einfachen" Charakter beibehält: Es wird eine Einzel-Skalen-Feature-Map und globale Cross-Attention-Berechnungen ohne spezifische Lokalitätsbeschränkungen verwendet, im Gegensatz zu früheren führenden DETR-basierten Detektoren, die architektonische induktive Verzerrungen von Multi-Skalen und Lokalität in den Decoder wieder einführen. Wir zeigen, dass zwei einfache Technologien innerhalb eines einfachen Designs überraschend effektiv sind, um den Mangel an Multi-Skalen-Feature-Maps und Lokalitätsbeschränkungen auszugleichen. Die erste ist ein Box-to-Pixel-Relative-Position-Bias (BoxRPB)-Term, der der Cross-Attention-Formulierung hinzugefügt wird und jede Query effektiv dazu anleitet, die entsprechende Objektregion zu beachten, während er gleichzeitig Kodierungsflexibilität bietet. Die zweite ist ein auf Masked Image Modeling (MIM) basierendes Backbone-Pre-Training, das hilft, Repräsentationen mit feinkörniger Lokalisierungsfähigkeit zu erlernen und sich als entscheidend für die Behebung von Abhängigkeiten von Multi-Skalen-Feature-Maps erweist. Durch die Integration dieser Technologien und jüngster Fortschritte in Training und Problemformulierung zeigte der verbesserte "einfache" DETR außergewöhnliche Verbesserungen gegenüber dem ursprünglichen DETR-Detektor. Durch die Nutzung des Object365-Datensatzes für das Pre-Training erreichte er eine Genauigkeit von 63,9 mAP mit einem Swin-L-Backbone, was sehr wettbewerbsfähig mit state-of-the-art Detektoren ist, die alle stark auf Multi-Skalen-Feature-Maps und regionsbasierte Feature-Extraktion angewiesen sind. Der Code ist verfügbar unter https://github.com/impiga/Plain-DETR.
English
This paper presents an improved DETR detector that maintains a "plain" nature: using a single-scale feature map and global cross-attention calculations without specific locality constraints, in contrast to previous leading DETR-based detectors that reintroduce architectural inductive biases of multi-scale and locality into the decoder. We show that two simple technologies are surprisingly effective within a plain design to compensate for the lack of multi-scale feature maps and locality constraints. The first is a box-to-pixel relative position bias (BoxRPB) term added to the cross-attention formulation, which well guides each query to attend to the corresponding object region while also providing encoding flexibility. The second is masked image modeling (MIM)-based backbone pre-training which helps learn representation with fine-grained localization ability and proves crucial for remedying dependencies on the multi-scale feature maps. By incorporating these technologies and recent advancements in training and problem formation, the improved "plain" DETR showed exceptional improvements over the original DETR detector. By leveraging the Object365 dataset for pre-training, it achieved 63.9 mAP accuracy using a Swin-L backbone, which is highly competitive with state-of-the-art detectors which all heavily rely on multi-scale feature maps and region-based feature extraction. Code is available at https://github.com/impiga/Plain-DETR .
PDF80December 15, 2024