RF-DETR: Ricerca Architetturale Neurale per Trasformatori di Rilevamento in Tempo Reale
RF-DETR: Neural Architecture Search for Real-Time Detection Transformers
November 12, 2025
Autori: Isaac Robinson, Peter Robicheaux, Matvei Popov, Deva Ramanan, Neehar Peri
cs.AI
Abstract
I rilevatori open-vocabulary ottengono prestazioni impressionanti su COCO, ma spesso non riescono a generalizzare su dataset del mondo reale con classi fuori distribuzione non tipicamente presenti nel loro pre-addestramento. Invece di effettuare un semplice fine-tuning di un modello vision-language (VLM) pesante per nuovi domini, introduciamo RF-DETR, un detection transformer specializzato e leggero che scopre curve di Pareto accuratezza-latenza per qualsiasi dataset target mediante neural architecture search (NAS) con condivisione dei pesi. Il nostro approccio addestra tramite fine-tuning una rete base pre-addestrata su un dataset target e valuta migliaia di configurazioni di rete con diversi compromessi accuratezza-latenza senza ri-addestramento. Inoltre, rivisitiamo i "parametri regolabili" per il NAS per migliorare la trasferibilità dei DETR verso domini target diversi. Notevolmente, RF-DETR migliora significativamente i precedenti metodi state-of-the-art in tempo reale su COCO e Roboflow100-VL. RF-DETR (nano) raggiunge 48.0 AP su COCO, superando D-FINE (nano) di 5.3 AP a latenza simile, e RF-DETR (2x-large) supera GroundingDINO (tiny) di 1.2 AP su Roboflow100-VL mentre è 20 volte più veloce. Per quanto ne sappiamo, RF-DETR (2x-large) è il primo rilevatore in tempo reale a superare 60 AP su COCO. Il nostro codice è disponibile su https://github.com/roboflow/rf-detr.
English
Open-vocabulary detectors achieve impressive performance on COCO, but often fail to generalize to real-world datasets with out-of-distribution classes not typically found in their pre-training. Rather than simply fine-tuning a heavy-weight vision-language model (VLM) for new domains, we introduce RF-DETR, a light-weight specialist detection transformer that discovers accuracy-latency Pareto curves for any target dataset with weight-sharing neural architecture search (NAS). Our approach fine-tunes a pre-trained base network on a target dataset and evaluates thousands of network configurations with different accuracy-latency tradeoffs without re-training. Further, we revisit the "tunable knobs" for NAS to improve the transferability of DETRs to diverse target domains. Notably, RF-DETR significantly improves on prior state-of-the-art real-time methods on COCO and Roboflow100-VL. RF-DETR (nano) achieves 48.0 AP on COCO, beating D-FINE (nano) by 5.3 AP at similar latency, and RF-DETR (2x-large) outperforms GroundingDINO (tiny) by 1.2 AP on Roboflow100-VL while running 20x as fast. To the best of our knowledge, RF-DETR (2x-large) is the first real-time detector to surpass 60 AP on COCO. Our code is at https://github.com/roboflow/rf-detr