Grounding DINO 1.5: Portare Avanti il "Confine" del Rilevamento di Oggetti in Set Aperti
Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection
May 16, 2024
Autori: Tianhe Ren, Qing Jiang, Shilong Liu, Zhaoyang Zeng, Wenlong Liu, Han Gao, Hongjie Huang, Zhengyu Ma, Xiaoke Jiang, Yihao Chen, Yuda Xiong, Hao Zhang, Feng Li, Peijun Tang, Kent Yu, Lei Zhang
cs.AI
Abstract
Questo articolo presenta Grounding DINO 1.5, una suite di modelli avanzati per il rilevamento di oggetti in contesti aperti (open-set) sviluppata da IDEA Research, che mira a spingere il "confine" del rilevamento di oggetti in contesti aperti. La suite comprende due modelli: Grounding DINO 1.5 Pro, un modello ad alte prestazioni progettato per una maggiore capacità di generalizzazione in un'ampia gamma di scenari, e Grounding DINO 1.5 Edge, un modello efficiente ottimizzato per una velocità più elevata, richiesta in molte applicazioni che necessitano di implementazione ai margini (edge deployment). Il modello Grounding DINO 1.5 Pro migliora il suo predecessore ampliando l'architettura del modello, integrando un backbone visivo potenziato e espandendo il dataset di addestramento a oltre 20 milioni di immagini con annotazioni di grounding, ottenendo così una comprensione semantica più ricca. Il modello Grounding DINO 1.5 Edge, pur essendo progettato per l'efficienza con scale di caratteristiche ridotte, mantiene robuste capacità di rilevamento grazie all'addestramento sullo stesso dataset completo. I risultati empirici dimostrano l'efficacia di Grounding DINO 1.5, con il modello Grounding DINO 1.5 Pro che raggiunge un AP di 54,3 sul benchmark di rilevamento COCO e un AP di 55,7 sul benchmark di trasferimento zero-shot LVIS-minival, stabilendo nuovi record per il rilevamento di oggetti in contesti aperti. Inoltre, il modello Grounding DINO 1.5 Edge, quando ottimizzato con TensorRT, raggiunge una velocità di 75,2 FPS mantenendo una prestazione zero-shot di 36,2 AP sul benchmark LVIS-minival, rendendolo più adatto per scenari di edge computing. Esempi di modelli e demo con API saranno rilasciati su https://github.com/IDEA-Research/Grounding-DINO-1.5-API.
English
This paper introduces Grounding DINO 1.5, a suite of advanced open-set object
detection models developed by IDEA Research, which aims to advance the "Edge"
of open-set object detection. The suite encompasses two models: Grounding DINO
1.5 Pro, a high-performance model designed for stronger generalization
capability across a wide range of scenarios, and Grounding DINO 1.5 Edge, an
efficient model optimized for faster speed demanded in many applications
requiring edge deployment. The Grounding DINO 1.5 Pro model advances its
predecessor by scaling up the model architecture, integrating an enhanced
vision backbone, and expanding the training dataset to over 20 million images
with grounding annotations, thereby achieving a richer semantic understanding.
The Grounding DINO 1.5 Edge model, while designed for efficiency with reduced
feature scales, maintains robust detection capabilities by being trained on the
same comprehensive dataset. Empirical results demonstrate the effectiveness of
Grounding DINO 1.5, with the Grounding DINO 1.5 Pro model attaining a 54.3 AP
on the COCO detection benchmark and a 55.7 AP on the LVIS-minival zero-shot
transfer benchmark, setting new records for open-set object detection.
Furthermore, the Grounding DINO 1.5 Edge model, when optimized with TensorRT,
achieves a speed of 75.2 FPS while attaining a zero-shot performance of 36.2 AP
on the LVIS-minival benchmark, making it more suitable for edge computing
scenarios. Model examples and demos with API will be released at
https://github.com/IDEA-Research/Grounding-DINO-1.5-API