Menos é Mais: Atenção Focalizada para DETR Eficiente

Resumo

Modelos do tipo DETR têm impulsionado significativamente o desempenho de detectores e até superado modelos convolucionais clássicos. No entanto, o tratamento igualitário de todos os tokens, sem discriminação, gera uma carga computacional redundante na estrutura tradicional do codificador. As estratégias recentes de esparsificação exploram um subconjunto de tokens informativos para reduzir a complexidade da atenção, mantendo o desempenho por meio do codificador esparso. Porém, esses métodos tendem a depender de estatísticas de modelo não confiáveis. Além disso, a simples redução da população de tokens prejudica em grande medida o desempenho da detecção, limitando a aplicação desses modelos esparsos. Propomos o Focus-DETR, que concentra a atenção em tokens mais informativos para um melhor equilíbrio entre eficiência computacional e precisão do modelo. Especificamente, reconstruímos o codificador com atenção dupla, que inclui um mecanismo de pontuação de tokens que considera tanto a localização quanto as informações semânticas de categoria dos objetos a partir de mapas de características multiescala. Abandonamos eficientemente as consultas de fundo e aprimoramos a interação semântica das consultas de objetos refinadas com base nas pontuações. Em comparação com os detectores esparsos do tipo DETR mais avançados sob a mesma configuração, nosso Focus-DETR obtém complexidade comparável enquanto alcança 50,4 AP (+2,2) no COCO. O código está disponível em https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR e https://gitee.com/mindspore/models/tree/master/research/cv/Focus-DETR.

English

DETR-like models have significantly boosted the performance of detectors and even outperformed classical convolutional models. However, all tokens are treated equally without discrimination brings a redundant computational burden in the traditional encoder structure. The recent sparsification strategies exploit a subset of informative tokens to reduce attention complexity maintaining performance through the sparse encoder. But these methods tend to rely on unreliable model statistics. Moreover, simply reducing the token population hinders the detection performance to a large extent, limiting the application of these sparse models. We propose Focus-DETR, which focuses attention on more informative tokens for a better trade-off between computation efficiency and model accuracy. Specifically, we reconstruct the encoder with dual attention, which includes a token scoring mechanism that considers both localization and category semantic information of the objects from multi-scale feature maps. We efficiently abandon the background queries and enhance the semantic interaction of the fine-grained object queries based on the scores. Compared with the state-of-the-art sparse DETR-like detectors under the same setting, our Focus-DETR gets comparable complexity while achieving 50.4AP (+2.2) on COCO. The code is available at https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR and https://gitee.com/mindspore/models/tree/master/research/cv/Focus-DETR.

Menos é Mais: Atenção Focalizada para DETR Eficiente

Less is More: Focus Attention for Efficient DETR

Resumo

Support