ChatPaper.aiChatPaper

RF-DETR : Recherche d'Architecture Neuronale pour les Transformers de Détection en Temps Réel

RF-DETR: Neural Architecture Search for Real-Time Detection Transformers

November 12, 2025
papers.authors: Isaac Robinson, Peter Robicheaux, Matvei Popov, Deva Ramanan, Neehar Peri
cs.AI

papers.abstract

Les détecteurs à vocabulaire ouvert obtiennent des performances impressionnantes sur COCO, mais échouent souvent à généraliser sur des ensembles de données réels contenant des classes hors distribution généralement absentes de leur pré-entraînement. Plutôt que de simplement affiner un modèle vision-langage (VLM) lourd pour de nouveaux domaines, nous présentons RF-DETR, un transformeur de détection spécialisé léger qui découvre des courbes de Pareto précision-latence pour n'importe quel ensemble de données cible via une recherche d'architecture neuronale (NAS) avec partage de poids. Notre approche affine un réseau de base pré-entraîné sur un ensemble de données cible et évalue des milliers de configurations de réseau avec différents compromis précision-latence sans ré-entraînement. De plus, nous revisitons les "paramètres ajustables" du NAS pour améliorer la transférabilité des DETR vers divers domaines cibles. Notamment, RF-DETR améliore significativement l'état de l'art antérieur des méthodes temps réel sur COCO et Roboflow100-VL. RF-DETR (nano) atteint 48,0 AP sur COCO, surpassant D-FINE (nano) de 5,3 AP à latence similaire, et RF-DETR (2x-large) surpasse GroundingDINO (tiny) de 1,2 AP sur Roboflow100-VL tout en étant 20 fois plus rapide. À notre connaissance, RF-DETR (2x-large) est le premier détecteur temps réel à dépasser 60 AP sur COCO. Notre code est disponible à l'adresse https://github.com/roboflow/rf-detr.
English
Open-vocabulary detectors achieve impressive performance on COCO, but often fail to generalize to real-world datasets with out-of-distribution classes not typically found in their pre-training. Rather than simply fine-tuning a heavy-weight vision-language model (VLM) for new domains, we introduce RF-DETR, a light-weight specialist detection transformer that discovers accuracy-latency Pareto curves for any target dataset with weight-sharing neural architecture search (NAS). Our approach fine-tunes a pre-trained base network on a target dataset and evaluates thousands of network configurations with different accuracy-latency tradeoffs without re-training. Further, we revisit the "tunable knobs" for NAS to improve the transferability of DETRs to diverse target domains. Notably, RF-DETR significantly improves on prior state-of-the-art real-time methods on COCO and Roboflow100-VL. RF-DETR (nano) achieves 48.0 AP on COCO, beating D-FINE (nano) by 5.3 AP at similar latency, and RF-DETR (2x-large) outperforms GroundingDINO (tiny) by 1.2 AP on Roboflow100-VL while running 20x as fast. To the best of our knowledge, RF-DETR (2x-large) is the first real-time detector to surpass 60 AP on COCO. Our code is at https://github.com/roboflow/rf-detr
PDF63December 1, 2025