ChatPaper.aiChatPaper

RF-DETR: Búsqueda de Arquitectura Neuronal para Transformadores de Detección en Tiempo Real

RF-DETR: Neural Architecture Search for Real-Time Detection Transformers

November 12, 2025
Autores: Isaac Robinson, Peter Robicheaux, Matvei Popov, Deva Ramanan, Neehar Peri
cs.AI

Resumen

Los detectores de vocabulario abierto logran un rendimiento impresionante en COCO, pero a menudo fallan al generalizar a conjuntos de datos del mundo real con clases fuera de distribución que no suelen encontrarse en su pre-entrenamiento. En lugar de simplemente ajustar un modelo pesado de visión y lenguaje (VLM) para nuevos dominios, presentamos RF-DETR, un transformer detector especializado y ligero que descubre curvas de Pareto de precisión-latencia para cualquier conjunto de datos objetivo mediante búsqueda de arquitectura neuronal (NAS) con pesos compartidos. Nuestro enfoque ajusta una red base pre-entrenada en un conjunto de datos objetivo y evalúa miles de configuraciones de red con diferentes compensaciones de precisión-latencia sin necesidad de re-entrenar. Además, revisitamos los "parámetros ajustables" para NAS con el fin de mejorar la transferibilidad de los DETR a diversos dominios objetivo. Notablemente, RF-DETR mejora significativamente los métodos de última generación en tiempo real anteriores en COCO y Roboflow100-VL. RF-DETR (nano) alcanza 48.0 AP en COCO, superando a D-FINE (nano) por 5.3 AP con una latencia similar, y RF-DETR (2x-large) supera a GroundingDINO (tiny) por 1.2 AP en Roboflow100-VL mientras funciona 20 veces más rápido. Hasta donde sabemos, RF-DETR (2x-large) es el primer detector en tiempo real que supera los 60 AP en COCO. Nuestro código está en https://github.com/roboflow/rf-detr.
English
Open-vocabulary detectors achieve impressive performance on COCO, but often fail to generalize to real-world datasets with out-of-distribution classes not typically found in their pre-training. Rather than simply fine-tuning a heavy-weight vision-language model (VLM) for new domains, we introduce RF-DETR, a light-weight specialist detection transformer that discovers accuracy-latency Pareto curves for any target dataset with weight-sharing neural architecture search (NAS). Our approach fine-tunes a pre-trained base network on a target dataset and evaluates thousands of network configurations with different accuracy-latency tradeoffs without re-training. Further, we revisit the "tunable knobs" for NAS to improve the transferability of DETRs to diverse target domains. Notably, RF-DETR significantly improves on prior state-of-the-art real-time methods on COCO and Roboflow100-VL. RF-DETR (nano) achieves 48.0 AP on COCO, beating D-FINE (nano) by 5.3 AP at similar latency, and RF-DETR (2x-large) outperforms GroundingDINO (tiny) by 1.2 AP on Roboflow100-VL while running 20x as fast. To the best of our knowledge, RF-DETR (2x-large) is the first real-time detector to surpass 60 AP on COCO. Our code is at https://github.com/roboflow/rf-detr
PDF63December 1, 2025