ChatPaper.aiChatPaper

RF-DETR: Neuronale Architektursuche für Echtzeit-Detektionstransformatoren

RF-DETR: Neural Architecture Search for Real-Time Detection Transformers

November 12, 2025
papers.authors: Isaac Robinson, Peter Robicheaux, Matvei Popov, Deva Ramanan, Neehar Peri
cs.AI

papers.abstract

Open-vocabulary-Detektoren erzielen beeindruckende Leistungen auf COCO, scheitern jedoch oft an der Generalisierung auf reale Datensätze mit Out-of-Distribution-Klassen, die typischerweise nicht in ihrem Pre-Training enthalten sind. Anstatt einfach ein schwergewichtiges Vision-Language-Modell (VLM) für neue Domänen zu fine-tunen, führen wir RF-DETR ein, einen leichtgewichtigen spezialisierten Detektions-Transformer, der mittels gewichteteilender neuronaler Architektursuche (NAS) Pareto-Kurven für Genauigkeit und Latenz für beliebige Zieldatensätze ermittelt. Unser Ansatz fine-tuned ein vortrainiertes Basisnetzwerk auf einem Zieldatensatz und evaluiert tausende Netzwerkkonfigurationen mit verschiedenen Genauigkeits-Latenz-Kompromissen ohne erneutes Training. Darüber hinaus untersuchen wir die "einstellbaren Stellschrauben" für NAS neu, um die Übertragbarkeit von DETRs auf verschiedene Zieldomänen zu verbessern. Bemerkenswerterweise verbessert RF-DETR frühere state-of-the-art Echtzeitverfahren auf COCO und Roboflow100-VL erheblich. RF-DETR (nano) erreicht 48,0 AP auf COCO und übertrifft D-FINE (nano) um 5,3 AP bei ähnlicher Latenz, während RF-DETR (2x-large) GroundingDINO (tiny) auf Roboflow100-VL um 1,2 AP übertrifft und dabei 20-mal schneller läuft. Nach unserem Wissen ist RF-DETR (2x-large) der erste Echtzeit-Detektor, der 60 AP auf COCO überschreitet. Unser Code ist unter https://github.com/roboflow/rf-detr verfügbar.
English
Open-vocabulary detectors achieve impressive performance on COCO, but often fail to generalize to real-world datasets with out-of-distribution classes not typically found in their pre-training. Rather than simply fine-tuning a heavy-weight vision-language model (VLM) for new domains, we introduce RF-DETR, a light-weight specialist detection transformer that discovers accuracy-latency Pareto curves for any target dataset with weight-sharing neural architecture search (NAS). Our approach fine-tunes a pre-trained base network on a target dataset and evaluates thousands of network configurations with different accuracy-latency tradeoffs without re-training. Further, we revisit the "tunable knobs" for NAS to improve the transferability of DETRs to diverse target domains. Notably, RF-DETR significantly improves on prior state-of-the-art real-time methods on COCO and Roboflow100-VL. RF-DETR (nano) achieves 48.0 AP on COCO, beating D-FINE (nano) by 5.3 AP at similar latency, and RF-DETR (2x-large) outperforms GroundingDINO (tiny) by 1.2 AP on Roboflow100-VL while running 20x as fast. To the best of our knowledge, RF-DETR (2x-large) is the first real-time detector to surpass 60 AP on COCO. Our code is at https://github.com/roboflow/rf-detr
PDF63December 1, 2025