DETR Non Richiede Progettazione Multi-Scala o Località
DETR Doesn't Need Multi-Scale or Locality Design
August 3, 2023
Autori: Yutong Lin, Yuhui Yuan, Zheng Zhang, Chen Li, Nanning Zheng, Han Hu
cs.AI
Abstract
Questo articolo presenta un rilevatore DETR migliorato che mantiene una natura "semplice": utilizza una mappa di caratteristiche a scala singola e calcoli di cross-attention globali senza vincoli di località specifici, in contrasto con i precedenti rilevatori DETR di punta che reintroducono bias induttivi architetturali di multi-scala e località nel decodificatore. Dimostriamo che due tecnologie semplici sono sorprendentemente efficaci all'interno di un design semplice per compensare la mancanza di mappe di caratteristiche multi-scala e vincoli di località. La prima è un termine di bias di posizione relativa box-to-pixel (BoxRPB) aggiunto alla formulazione della cross-attention, che guida efficacemente ogni query a concentrarsi sulla regione dell'oggetto corrispondente, fornendo anche flessibilità di codifica. La seconda è il pre-addestramento del backbone basato su modellazione mascherata dell'immagine (MIM), che aiuta a apprendere rappresentazioni con capacità di localizzazione fine e si dimostra cruciale per rimediare alle dipendenze dalle mappe di caratteristiche multi-scala. Incorporando queste tecnologie e i recenti progressi nella formazione e nella formulazione del problema, il DETR "semplice" migliorato ha mostrato miglioramenti eccezionali rispetto al rilevatore DETR originale. Utilizzando il dataset Object365 per il pre-addestramento, ha raggiunto un'accuratezza di 63.9 mAP con un backbone Swin-L, risultando altamente competitivo rispetto ai rilevatori all'avanguardia che si basano pesantemente su mappe di caratteristiche multi-scala e estrazione di caratteristiche basate su regioni. Il codice è disponibile all'indirizzo https://github.com/impiga/Plain-DETR.
English
This paper presents an improved DETR detector that maintains a "plain"
nature: using a single-scale feature map and global cross-attention
calculations without specific locality constraints, in contrast to previous
leading DETR-based detectors that reintroduce architectural inductive biases of
multi-scale and locality into the decoder. We show that two simple technologies
are surprisingly effective within a plain design to compensate for the lack of
multi-scale feature maps and locality constraints. The first is a box-to-pixel
relative position bias (BoxRPB) term added to the cross-attention formulation,
which well guides each query to attend to the corresponding object region while
also providing encoding flexibility. The second is masked image modeling
(MIM)-based backbone pre-training which helps learn representation with
fine-grained localization ability and proves crucial for remedying dependencies
on the multi-scale feature maps. By incorporating these technologies and recent
advancements in training and problem formation, the improved "plain" DETR
showed exceptional improvements over the original DETR detector. By leveraging
the Object365 dataset for pre-training, it achieved 63.9 mAP accuracy using a
Swin-L backbone, which is highly competitive with state-of-the-art detectors
which all heavily rely on multi-scale feature maps and region-based feature
extraction. Code is available at https://github.com/impiga/Plain-DETR .