O DETR Não Precisa de Projeto Multi-Escala ou de Localidade

Resumo

Este artigo apresenta um detector DETR aprimorado que mantém uma natureza "simples": utilizando um mapa de características de escala única e cálculos de atenção cruzada global sem restrições específicas de localidade, em contraste com os principais detectores baseados em DETR anteriores que reintroduzem vieses indutivos arquiteturais de multi-escala e localidade no decodificador. Mostramos que duas tecnologias simples são surpreendentemente eficazes dentro de um design simples para compensar a falta de mapas de características multi-escala e restrições de localidade. A primeira é um termo de viés de posição relativa caixa-para-pixel (BoxRPB) adicionado à formulação de atenção cruzada, que bem orienta cada consulta a atentar para a região do objeto correspondente, ao mesmo tempo que fornece flexibilidade de codificação. A segunda é o pré-treinamento da backbone baseado em modelagem de imagem mascarada (MIM), que ajuda a aprender representação com capacidade de localização de granularidade fina e se mostra crucial para remediar dependências dos mapas de características multi-escala. Ao incorporar essas tecnologias e avanços recentes em treinamento e formulação de problemas, o DETR "simples" aprimorado mostrou melhorias excepcionais em relação ao detector DETR original. Ao aproveitar o conjunto de dados Object365 para pré-treinamento, ele alcançou 63,9 mAP de precisão usando uma backbone Swin-L, o que é altamente competitivo com os detectores de última geração que dependem fortemente de mapas de características multi-escala e extração de características baseada em região. O código está disponível em https://github.com/impiga/Plain-DETR.

English

This paper presents an improved DETR detector that maintains a "plain" nature: using a single-scale feature map and global cross-attention calculations without specific locality constraints, in contrast to previous leading DETR-based detectors that reintroduce architectural inductive biases of multi-scale and locality into the decoder. We show that two simple technologies are surprisingly effective within a plain design to compensate for the lack of multi-scale feature maps and locality constraints. The first is a box-to-pixel relative position bias (BoxRPB) term added to the cross-attention formulation, which well guides each query to attend to the corresponding object region while also providing encoding flexibility. The second is masked image modeling (MIM)-based backbone pre-training which helps learn representation with fine-grained localization ability and proves crucial for remedying dependencies on the multi-scale feature maps. By incorporating these technologies and recent advancements in training and problem formation, the improved "plain" DETR showed exceptional improvements over the original DETR detector. By leveraging the Object365 dataset for pre-training, it achieved 63.9 mAP accuracy using a Swin-L backbone, which is highly competitive with state-of-the-art detectors which all heavily rely on multi-scale feature maps and region-based feature extraction. Code is available at https://github.com/impiga/Plain-DETR .

O DETR Não Precisa de Projeto Multi-Escala ou de Localidade

DETR Doesn't Need Multi-Scale or Locality Design

Resumo

Support