RF-DETR: 실시간 검출 트랜스포머를 위한 신경망 구조 탐색
RF-DETR: Neural Architecture Search for Real-Time Detection Transformers
November 12, 2025
저자: Isaac Robinson, Peter Robicheaux, Matvei Popov, Deva Ramanan, Neehar Peri
cs.AI
초록
오픈 보커블러리 검출기는 COCO 데이터셋에서 인상적인 성능을 달성하지만, 일반적으로 사전 학습에 포함되지 않는 분포 외 클래스가 포함된 실제 세계 데이터셋으로의 일반화에는 종종 실패합니다. 대규모 시각-언어 모델(VLM)을 새로운 도메인에 대해 단순히 미세 조정하는 대신, 본 논문에서는 가중치 공유 신경망 구조 탐색(NAS)을 통해 대상 데이터셋에 대한 정확도-지연 시간 파레토 곡선을 발견하는 경량 전문 검출 변환기인 RF-DETR을 소개합니다. 우리의 접근 방식은 사전 학습된 기본 네트워크를 대상 데이터셋에 대해 미세 조정하고, 재학습 없이 다양한 정확도-지연 시간 절충점을 가진 수천 가지 네트워크 구성을 평가합니다. 더 나아가, NAS를 위한 "조정 가능한 파라미터"를 재검토하여 DETR의 다양한 대상 도메인으로의 전이 가능성을 향상시킵니다. 특히, RF-DETR은 COCO 및 Roboflow100-VL에서 기존 최첨단 실시간 방법론들을 크게 개선합니다. RF-DETR (nano)은 COCO에서 48.0 AP를 달성하여 유사한 지연 시간 대비 D-FINE (nano)보다 5.3 AP 높은 성능을 보였으며, RF-DETR (2x-large)은 Roboflow100-VL에서 GroundingDINO (tiny)보다 1.2 AP 높은 성능을 보이면서 20배 빠른 속도로 실행됩니다. 우리가 알고 있는 바에 따르면, RF-DETR (2x-large)은 COCO에서 60 AP를 넘어서는 최초의 실시간 검출기입니다. 우리의 코드는 https://github.com/roboflow/rf-detr 에 있습니다.
English
Open-vocabulary detectors achieve impressive performance on COCO, but often fail to generalize to real-world datasets with out-of-distribution classes not typically found in their pre-training. Rather than simply fine-tuning a heavy-weight vision-language model (VLM) for new domains, we introduce RF-DETR, a light-weight specialist detection transformer that discovers accuracy-latency Pareto curves for any target dataset with weight-sharing neural architecture search (NAS). Our approach fine-tunes a pre-trained base network on a target dataset and evaluates thousands of network configurations with different accuracy-latency tradeoffs without re-training. Further, we revisit the "tunable knobs" for NAS to improve the transferability of DETRs to diverse target domains. Notably, RF-DETR significantly improves on prior state-of-the-art real-time methods on COCO and Roboflow100-VL. RF-DETR (nano) achieves 48.0 AP on COCO, beating D-FINE (nano) by 5.3 AP at similar latency, and RF-DETR (2x-large) outperforms GroundingDINO (tiny) by 1.2 AP on Roboflow100-VL while running 20x as fast. To the best of our knowledge, RF-DETR (2x-large) is the first real-time detector to surpass 60 AP on COCO. Our code is at https://github.com/roboflow/rf-detr