Grounding DINO 1.5: Avanzando la "Frontera" de la Detección de Objetos en Conjuntos Abiertos
Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection
May 16, 2024
Autores: Tianhe Ren, Qing Jiang, Shilong Liu, Zhaoyang Zeng, Wenlong Liu, Han Gao, Hongjie Huang, Zhengyu Ma, Xiaoke Jiang, Yihao Chen, Yuda Xiong, Hao Zhang, Feng Li, Peijun Tang, Kent Yu, Lei Zhang
cs.AI
Resumen
Este artículo presenta Grounding DINO 1.5, un conjunto de modelos avanzados de detección de objetos en conjuntos abiertos desarrollado por IDEA Research, cuyo objetivo es impulsar la "vanguardia" de la detección de objetos en conjuntos abiertos. El conjunto incluye dos modelos: Grounding DINO 1.5 Pro, un modelo de alto rendimiento diseñado para una mayor capacidad de generalización en una amplia gama de escenarios, y Grounding DINO 1.5 Edge, un modelo eficiente optimizado para una mayor velocidad requerida en muchas aplicaciones que necesitan implementación en el edge. El modelo Grounding DINO 1.5 Pro avanza respecto a su predecesor al escalar la arquitectura del modelo, integrar un backbone de visión mejorado y ampliar el conjunto de datos de entrenamiento a más de 20 millones de imágenes con anotaciones de grounding, logrando así una comprensión semántica más rica. El modelo Grounding DINO 1.5 Edge, aunque diseñado para la eficiencia con escalas de características reducidas, mantiene capacidades de detección robustas al ser entrenado en el mismo conjunto de datos exhaustivo. Los resultados empíricos demuestran la efectividad de Grounding DINO 1.5, con el modelo Grounding DINO 1.5 Pro alcanzando un 54.3 AP en el benchmark de detección COCO y un 55.7 AP en el benchmark de transferencia zero-shot LVIS-minival, estableciendo nuevos récords en detección de objetos en conjuntos abiertos. Además, el modelo Grounding DINO 1.5 Edge, cuando se optimiza con TensorRT, alcanza una velocidad de 75.2 FPS mientras logra un rendimiento zero-shot de 36.2 AP en el benchmark LVIS-minival, haciéndolo más adecuado para escenarios de edge computing. Ejemplos de modelos y demostraciones con API serán lanzados en https://github.com/IDEA-Research/Grounding-DINO-1.5-API.
English
This paper introduces Grounding DINO 1.5, a suite of advanced open-set object
detection models developed by IDEA Research, which aims to advance the "Edge"
of open-set object detection. The suite encompasses two models: Grounding DINO
1.5 Pro, a high-performance model designed for stronger generalization
capability across a wide range of scenarios, and Grounding DINO 1.5 Edge, an
efficient model optimized for faster speed demanded in many applications
requiring edge deployment. The Grounding DINO 1.5 Pro model advances its
predecessor by scaling up the model architecture, integrating an enhanced
vision backbone, and expanding the training dataset to over 20 million images
with grounding annotations, thereby achieving a richer semantic understanding.
The Grounding DINO 1.5 Edge model, while designed for efficiency with reduced
feature scales, maintains robust detection capabilities by being trained on the
same comprehensive dataset. Empirical results demonstrate the effectiveness of
Grounding DINO 1.5, with the Grounding DINO 1.5 Pro model attaining a 54.3 AP
on the COCO detection benchmark and a 55.7 AP on the LVIS-minival zero-shot
transfer benchmark, setting new records for open-set object detection.
Furthermore, the Grounding DINO 1.5 Edge model, when optimized with TensorRT,
achieves a speed of 75.2 FPS while attaining a zero-shot performance of 36.2 AP
on the LVIS-minival benchmark, making it more suitable for edge computing
scenarios. Model examples and demos with API will be released at
https://github.com/IDEA-Research/Grounding-DINO-1.5-APISummary
AI-Generated Summary