Menos é Mais: Atenção Focalizada para DETR Eficiente
Less is More: Focus Attention for Efficient DETR
July 24, 2023
Autores: Dehua Zheng, Wenhui Dong, Hailin Hu, Xinghao Chen, Yunhe Wang
cs.AI
Resumo
Modelos do tipo DETR têm impulsionado significativamente o desempenho de detectores e até superado modelos convolucionais clássicos. No entanto, o tratamento igualitário de todos os tokens, sem discriminação, gera uma carga computacional redundante na estrutura tradicional do codificador. As estratégias recentes de esparsificação exploram um subconjunto de tokens informativos para reduzir a complexidade da atenção, mantendo o desempenho por meio do codificador esparso. Porém, esses métodos tendem a depender de estatísticas de modelo não confiáveis. Além disso, a simples redução da população de tokens prejudica em grande medida o desempenho da detecção, limitando a aplicação desses modelos esparsos. Propomos o Focus-DETR, que concentra a atenção em tokens mais informativos para um melhor equilíbrio entre eficiência computacional e precisão do modelo. Especificamente, reconstruímos o codificador com atenção dupla, que inclui um mecanismo de pontuação de tokens que considera tanto a localização quanto as informações semânticas de categoria dos objetos a partir de mapas de características multiescala. Abandonamos eficientemente as consultas de fundo e aprimoramos a interação semântica das consultas de objetos refinadas com base nas pontuações. Em comparação com os detectores esparsos do tipo DETR mais avançados sob a mesma configuração, nosso Focus-DETR obtém complexidade comparável enquanto alcança 50,4 AP (+2,2) no COCO. O código está disponível em https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR e https://gitee.com/mindspore/models/tree/master/research/cv/Focus-DETR.
English
DETR-like models have significantly boosted the performance of detectors and
even outperformed classical convolutional models. However, all tokens are
treated equally without discrimination brings a redundant computational burden
in the traditional encoder structure. The recent sparsification strategies
exploit a subset of informative tokens to reduce attention complexity
maintaining performance through the sparse encoder. But these methods tend to
rely on unreliable model statistics. Moreover, simply reducing the token
population hinders the detection performance to a large extent, limiting the
application of these sparse models. We propose Focus-DETR, which focuses
attention on more informative tokens for a better trade-off between computation
efficiency and model accuracy. Specifically, we reconstruct the encoder with
dual attention, which includes a token scoring mechanism that considers both
localization and category semantic information of the objects from multi-scale
feature maps. We efficiently abandon the background queries and enhance the
semantic interaction of the fine-grained object queries based on the scores.
Compared with the state-of-the-art sparse DETR-like detectors under the same
setting, our Focus-DETR gets comparable complexity while achieving 50.4AP
(+2.2) on COCO. The code is available at
https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR and
https://gitee.com/mindspore/models/tree/master/research/cv/Focus-DETR.