RF-DETR: Busca por Arquitetura Neural para Transformers de Detecção em Tempo Real

Resumo

Os detectores de vocabulário aberto alcançam desempenho impressionante no COCO, mas frequentemente falham em generalizar para conjuntos de dados do mundo real com classes fora da distribuição não tipicamente presentes em seu pré-treinamento. Em vez de simplesmente ajustar um modelo pesado de visão e linguagem (VLM) para novos domínios, introduzimos o RF-DETR, um transformer de detecção especializado e leve que descobre curvas de Pareto de precisão-latência para qualquer conjunto de dados alvo através de pesquisa de arquitetura neural (NAS) com compartilhamento de pesos. Nossa abordagem ajusta uma rede base pré-treinada em um conjunto de dados alvo e avalia milhares de configurações de rede com diferentes compensações precisão-latência sem necessidade de retreinamento. Adicionalmente, revisitamos os "ajustes parametrizáveis" para NAS para melhorar a transferibilidade dos DETRs para diversos domínios alvo. Notavelmente, o RF-DETR melhora significativamente os métodos state-of-the-art anteriores em tempo real no COCO e Roboflow100-VL. O RF-DETR (nano) alcança 48.0 AP no COCO, superando o D-FINE (nano) em 5.3 AP com latência similar, e o RF-DETR (2x-large) supera o GroundingDINO (tiny) em 1.2 AP no Roboflow100-VL enquanto executa 20x mais rápido. Até onde sabemos, o RF-DETR (2x-large) é o primeiro detector em tempo real a ultrapassar 60 AP no COCO. Nosso código está em https://github.com/roboflow/rf-detr

English

Open-vocabulary detectors achieve impressive performance on COCO, but often fail to generalize to real-world datasets with out-of-distribution classes not typically found in their pre-training. Rather than simply fine-tuning a heavy-weight vision-language model (VLM) for new domains, we introduce RF-DETR, a light-weight specialist detection transformer that discovers accuracy-latency Pareto curves for any target dataset with weight-sharing neural architecture search (NAS). Our approach fine-tunes a pre-trained base network on a target dataset and evaluates thousands of network configurations with different accuracy-latency tradeoffs without re-training. Further, we revisit the "tunable knobs" for NAS to improve the transferability of DETRs to diverse target domains. Notably, RF-DETR significantly improves on prior state-of-the-art real-time methods on COCO and Roboflow100-VL. RF-DETR (nano) achieves 48.0 AP on COCO, beating D-FINE (nano) by 5.3 AP at similar latency, and RF-DETR (2x-large) outperforms GroundingDINO (tiny) by 1.2 AP on Roboflow100-VL while running 20x as fast. To the best of our knowledge, RF-DETR (2x-large) is the first real-time detector to surpass 60 AP on COCO. Our code is at https://github.com/roboflow/rf-detr

RF-DETR: Busca por Arquitetura Neural para Transformers de Detecção em Tempo Real

RF-DETR: Neural Architecture Search for Real-Time Detection Transformers

Resumo

Support