RF-DETR: Поиск нейронных архитектур для трансформеров детектирования в реальном времени
RF-DETR: Neural Architecture Search for Real-Time Detection Transformers
November 12, 2025
Авторы: Isaac Robinson, Peter Robicheaux, Matvei Popov, Deva Ramanan, Neehar Peri
cs.AI
Аннотация
Детекторы с открытым словарем демонстрируют впечатляющие результаты на COCO, но часто не способны к обобщению на реальные наборы данных с классами, выходящими за пределы распределения (out-of-distribution), которые обычно отсутствуют в их предварительном обучении. Вместо простого дообучения тяжелой визуально-языковой модели (VLM) для новых доменов мы представляем RF-DETR — легковесный специализированный детектор-трансформер, который строит кривые Парето "точность-задержка" для любого целевого набора данных с помощью поиска нейронной архитектуры (NAS) с разделением весов. Наш подход дообучает предварительно обученную базовую сеть на целевом наборе данных и оценивает тысячи конфигураций сетей с различными компромиссами между точностью и задержкой без их переобучения. Кроме того, мы пересматриваем "регулируемые параметры" для NAS, чтобы улучшить переносимость DETR в разнообразные целевые домены. Примечательно, что RF-DETR значительно превосходит предыдущие передовые методы реального времени на COCO и Roboflow100-VL. RF-DETR (nano) достигает 48.0 AP на COCO, опережая D-FINE (nano) на 5.3 AP при схожей задержке, а RF-DETR (2x-large) превосходит GroundingDINO (tiny) на 1.2 AP на Roboflow100-VL, работая при этом в 20 раз быстрее. Насколько нам известно, RF-DETR (2x-large) является первым детектором реального времени, преодолевшим рубеж в 60 AP на COCO. Наш код доступен по адресу https://github.com/roboflow/rf-detr.
English
Open-vocabulary detectors achieve impressive performance on COCO, but often fail to generalize to real-world datasets with out-of-distribution classes not typically found in their pre-training. Rather than simply fine-tuning a heavy-weight vision-language model (VLM) for new domains, we introduce RF-DETR, a light-weight specialist detection transformer that discovers accuracy-latency Pareto curves for any target dataset with weight-sharing neural architecture search (NAS). Our approach fine-tunes a pre-trained base network on a target dataset and evaluates thousands of network configurations with different accuracy-latency tradeoffs without re-training. Further, we revisit the "tunable knobs" for NAS to improve the transferability of DETRs to diverse target domains. Notably, RF-DETR significantly improves on prior state-of-the-art real-time methods on COCO and Roboflow100-VL. RF-DETR (nano) achieves 48.0 AP on COCO, beating D-FINE (nano) by 5.3 AP at similar latency, and RF-DETR (2x-large) outperforms GroundingDINO (tiny) by 1.2 AP on Roboflow100-VL while running 20x as fast. To the best of our knowledge, RF-DETR (2x-large) is the first real-time detector to surpass 60 AP on COCO. Our code is at https://github.com/roboflow/rf-detr