Grounding DINO 1.5: Verleg de "Grens" van Open-Set Objectdetectie
Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection
May 16, 2024
Auteurs: Tianhe Ren, Qing Jiang, Shilong Liu, Zhaoyang Zeng, Wenlong Liu, Han Gao, Hongjie Huang, Zhengyu Ma, Xiaoke Jiang, Yihao Chen, Yuda Xiong, Hao Zhang, Feng Li, Peijun Tang, Kent Yu, Lei Zhang
cs.AI
Samenvatting
Dit artikel introduceert Grounding DINO 1.5, een suite van geavanceerde open-set objectdetectiemodellen ontwikkeld door IDEA Research, die als doel heeft de "Edge" van open-set objectdetectie verder te brengen. De suite omvat twee modellen: Grounding DINO 1.5 Pro, een hoogwaardig model ontworpen voor sterkere generalisatiecapaciteit in een breed scala aan scenario's, en Grounding DINO 1.5 Edge, een efficiënt model geoptimaliseerd voor hogere snelheid die vereist is in veel toepassingen die edge-implementatie vereisen. Het Grounding DINO 1.5 Pro-model verbetert zijn voorganger door de modelarchitectuur op te schalen, een verbeterde visuele backbone te integreren en de trainingsdataset uit te breiden tot meer dan 20 miljoen afbeeldingen met groundingannotaties, waardoor een rijker semantisch begrip wordt bereikt. Het Grounding DINO 1.5 Edge-model, hoewel ontworpen voor efficiëntie met gereduceerde featureschalen, behoudt robuuste detectiecapaciteiten door te worden getraind op dezelfde uitgebreide dataset. Empirische resultaten tonen de effectiviteit van Grounding DINO 1.5 aan, waarbij het Grounding DINO 1.5 Pro-model een 54.3 AP behaalt op de COCO-detectiebenchmark en een 55.7 AP op de LVIS-minival zero-shot transferbenchmark, waarmee nieuwe records worden gevestigd voor open-set objectdetectie. Bovendien bereikt het Grounding DINO 1.5 Edge-model, wanneer geoptimaliseerd met TensorRT, een snelheid van 75.2 FPS terwijl het een zero-shot prestatie van 36.2 AP behaalt op de LVIS-minival benchmark, waardoor het geschikter wordt voor edge computing-scenario's. Modelvoorbeelden en demo's met API zullen worden vrijgegeven op https://github.com/IDEA-Research/Grounding-DINO-1.5-API.
English
This paper introduces Grounding DINO 1.5, a suite of advanced open-set object
detection models developed by IDEA Research, which aims to advance the "Edge"
of open-set object detection. The suite encompasses two models: Grounding DINO
1.5 Pro, a high-performance model designed for stronger generalization
capability across a wide range of scenarios, and Grounding DINO 1.5 Edge, an
efficient model optimized for faster speed demanded in many applications
requiring edge deployment. The Grounding DINO 1.5 Pro model advances its
predecessor by scaling up the model architecture, integrating an enhanced
vision backbone, and expanding the training dataset to over 20 million images
with grounding annotations, thereby achieving a richer semantic understanding.
The Grounding DINO 1.5 Edge model, while designed for efficiency with reduced
feature scales, maintains robust detection capabilities by being trained on the
same comprehensive dataset. Empirical results demonstrate the effectiveness of
Grounding DINO 1.5, with the Grounding DINO 1.5 Pro model attaining a 54.3 AP
on the COCO detection benchmark and a 55.7 AP on the LVIS-minival zero-shot
transfer benchmark, setting new records for open-set object detection.
Furthermore, the Grounding DINO 1.5 Edge model, when optimized with TensorRT,
achieves a speed of 75.2 FPS while attaining a zero-shot performance of 36.2 AP
on the LVIS-minival benchmark, making it more suitable for edge computing
scenarios. Model examples and demos with API will be released at
https://github.com/IDEA-Research/Grounding-DINO-1.5-API