ChatPaper.aiChatPaper

RF-DETR: Neurale Architectuur Zoektocht voor Real-Time Detectie Transformers

RF-DETR: Neural Architecture Search for Real-Time Detection Transformers

November 12, 2025
Auteurs: Isaac Robinson, Peter Robicheaux, Matvei Popov, Deva Ramanan, Neehar Peri
cs.AI

Samenvatting

Open-vocabulary-detectoren behalen indrukwekkende prestaties op COCO, maar slagen er vaak niet in om te generaliseren naar real-world datasets met out-of-distribution klassen die doorgaans niet in hun pre-training voorkomen. In plaats van simpelweg een zwaarwegend vision-language-model (VLM) voor nieuwe domeinen te fine-tunen, introduceren wij RF-DETR, een lichtgewicht specialistische detection transformer die Pareto-curves voor nauwkeurigheid en latentie ontdekt voor elke doeldataset met neural architecture search (NAS) met gewichtsdeling. Onze aanpaste fine-tunt een voorgetraind basisnetwerk op een doeldataset en evalueert duizenden netwerkconfiguraties met verschillende nauwkeurigheid-latentie afwegingen zonder hertraining. Verder herzien wij de "afstembare knoppen" voor NAS om de overdraagbaarheid van DETRs naar diverse doeldomeinen te verbeteren. Opmerkelijk is dat RF-DETR aanzienlijk verbetert ten opzichte van eerdere state-of-the-art real-time methoden op COCO en Roboflow100-VL. RF-DETR (nano) behaalt 48.0 AP op COCO, wat D-FINE (nano) met 5.3 AP verslaat bij vergelijkbare latentie, en RF-DETR (2x-large) presteert 1.2 AP beter dan GroundingDINO (tiny) op Roboflow100-VL terwijl het 20x zo snel draait. Voor zover wij weten, is RF-DETR (2x-large) de eerste real-time detector die de 60 AP op COCO overschrijdt. Onze code staat op https://github.com/roboflow/rf-detr.
English
Open-vocabulary detectors achieve impressive performance on COCO, but often fail to generalize to real-world datasets with out-of-distribution classes not typically found in their pre-training. Rather than simply fine-tuning a heavy-weight vision-language model (VLM) for new domains, we introduce RF-DETR, a light-weight specialist detection transformer that discovers accuracy-latency Pareto curves for any target dataset with weight-sharing neural architecture search (NAS). Our approach fine-tunes a pre-trained base network on a target dataset and evaluates thousands of network configurations with different accuracy-latency tradeoffs without re-training. Further, we revisit the "tunable knobs" for NAS to improve the transferability of DETRs to diverse target domains. Notably, RF-DETR significantly improves on prior state-of-the-art real-time methods on COCO and Roboflow100-VL. RF-DETR (nano) achieves 48.0 AP on COCO, beating D-FINE (nano) by 5.3 AP at similar latency, and RF-DETR (2x-large) outperforms GroundingDINO (tiny) by 1.2 AP on Roboflow100-VL while running 20x as fast. To the best of our knowledge, RF-DETR (2x-large) is the first real-time detector to surpass 60 AP on COCO. Our code is at https://github.com/roboflow/rf-detr
PDF63December 1, 2025