DETR Non Richiede Progettazione Multi-Scala o Località

Abstract

Questo articolo presenta un rilevatore DETR migliorato che mantiene una natura "semplice": utilizza una mappa di caratteristiche a scala singola e calcoli di cross-attention globali senza vincoli di località specifici, in contrasto con i precedenti rilevatori DETR di punta che reintroducono bias induttivi architetturali di multi-scala e località nel decodificatore. Dimostriamo che due tecnologie semplici sono sorprendentemente efficaci all'interno di un design semplice per compensare la mancanza di mappe di caratteristiche multi-scala e vincoli di località. La prima è un termine di bias di posizione relativa box-to-pixel (BoxRPB) aggiunto alla formulazione della cross-attention, che guida efficacemente ogni query a concentrarsi sulla regione dell'oggetto corrispondente, fornendo anche flessibilità di codifica. La seconda è il pre-addestramento del backbone basato su modellazione mascherata dell'immagine (MIM), che aiuta a apprendere rappresentazioni con capacità di localizzazione fine e si dimostra cruciale per rimediare alle dipendenze dalle mappe di caratteristiche multi-scala. Incorporando queste tecnologie e i recenti progressi nella formazione e nella formulazione del problema, il DETR "semplice" migliorato ha mostrato miglioramenti eccezionali rispetto al rilevatore DETR originale. Utilizzando il dataset Object365 per il pre-addestramento, ha raggiunto un'accuratezza di 63.9 mAP con un backbone Swin-L, risultando altamente competitivo rispetto ai rilevatori all'avanguardia che si basano pesantemente su mappe di caratteristiche multi-scala e estrazione di caratteristiche basate su regioni. Il codice è disponibile all'indirizzo https://github.com/impiga/Plain-DETR.

English

This paper presents an improved DETR detector that maintains a "plain" nature: using a single-scale feature map and global cross-attention calculations without specific locality constraints, in contrast to previous leading DETR-based detectors that reintroduce architectural inductive biases of multi-scale and locality into the decoder. We show that two simple technologies are surprisingly effective within a plain design to compensate for the lack of multi-scale feature maps and locality constraints. The first is a box-to-pixel relative position bias (BoxRPB) term added to the cross-attention formulation, which well guides each query to attend to the corresponding object region while also providing encoding flexibility. The second is masked image modeling (MIM)-based backbone pre-training which helps learn representation with fine-grained localization ability and proves crucial for remedying dependencies on the multi-scale feature maps. By incorporating these technologies and recent advancements in training and problem formation, the improved "plain" DETR showed exceptional improvements over the original DETR detector. By leveraging the Object365 dataset for pre-training, it achieved 63.9 mAP accuracy using a Swin-L backbone, which is highly competitive with state-of-the-art detectors which all heavily rely on multi-scale feature maps and region-based feature extraction. Code is available at https://github.com/impiga/Plain-DETR .

DETR Non Richiede Progettazione Multi-Scala o Località

DETR Doesn't Need Multi-Scale or Locality Design

Abstract

Support