RF-DETR:リアルタイム検出トランスフォーマーのためのニューラルアーキテクチャサーチ
RF-DETR: Neural Architecture Search for Real-Time Detection Transformers
November 12, 2025
著者: Isaac Robinson, Peter Robicheaux, Matvei Popov, Deva Ramanan, Neehar Peri
cs.AI
要旨
オープンボキャブラリー検出器はCOCOにおいて高い性能を達成するが、事前学習に含まれない分布外クラスを持つ実世界データセットへの汎化に失敗することが多い。大規模な視覚言語モデル(VLM)を新たな領域向けに単純にファインチューニングするのではなく、本論文ではRF-DETRを提案する。これは軽量な専門検出トランスフォーマーであり、重み共有型ニューラルアーキテクチャ探索(NAS)を通じて、任意のターゲットデータセットに対する精度-レイテンシのパレート曲線を発見する。我々の手法は、事前学習済みベースネットワークをターゲットデータセットでファインチューニングし、再学習なしで数千のネットワーク構成を異なる精度-レイテンシのトレードオフで評価する。さらに、DETRの多様なターゲット領域への転移性を向上させるため、NASの「調整可能な要素」を再検討する。特筆すべきは、RF-DETRがCOCOおよびRoboflow100-VLにおける従来の最先端リアルタイム手法を大幅に改善した点である。RF-DETR (nano) はCOCOで48.0 APを達成し、同程度のレイテンシでD-FINE (nano) を5.3 AP上回った。また、RF-DETR (2x-large) はRoboflow100-VLにおいてGroundingDINO (tiny) を1.2 AP上回り、20倍高速に動作する。知る限り、RF-DETR (2x-large) はCOCOで60 APを超えた初のリアルタイム検出器である。コードはhttps://github.com/roboflow/rf-detr で公開されている。
English
Open-vocabulary detectors achieve impressive performance on COCO, but often fail to generalize to real-world datasets with out-of-distribution classes not typically found in their pre-training. Rather than simply fine-tuning a heavy-weight vision-language model (VLM) for new domains, we introduce RF-DETR, a light-weight specialist detection transformer that discovers accuracy-latency Pareto curves for any target dataset with weight-sharing neural architecture search (NAS). Our approach fine-tunes a pre-trained base network on a target dataset and evaluates thousands of network configurations with different accuracy-latency tradeoffs without re-training. Further, we revisit the "tunable knobs" for NAS to improve the transferability of DETRs to diverse target domains. Notably, RF-DETR significantly improves on prior state-of-the-art real-time methods on COCO and Roboflow100-VL. RF-DETR (nano) achieves 48.0 AP on COCO, beating D-FINE (nano) by 5.3 AP at similar latency, and RF-DETR (2x-large) outperforms GroundingDINO (tiny) by 1.2 AP on Roboflow100-VL while running 20x as fast. To the best of our knowledge, RF-DETR (2x-large) is the first real-time detector to surpass 60 AP on COCO. Our code is at https://github.com/roboflow/rf-detr