Bodenständige DINO 1.5: Vorantreiben des "Rands" der Open-Set Objekterkennung
Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection
May 16, 2024
Autoren: Tianhe Ren, Qing Jiang, Shilong Liu, Zhaoyang Zeng, Wenlong Liu, Han Gao, Hongjie Huang, Zhengyu Ma, Xiaoke Jiang, Yihao Chen, Yuda Xiong, Hao Zhang, Feng Li, Peijun Tang, Kent Yu, Lei Zhang
cs.AI
Zusammenfassung
Dieses Papier stellt Grounding DINO 1.5 vor, eine Reihe fortschrittlicher Open-Set-Objekterkennungsmodelle, die von IDEA Research entwickelt wurden und darauf abzielen, den "Edge" der Open-Set-Objekterkennung voranzutreiben. Die Suite umfasst zwei Modelle: Grounding DINO 1.5 Pro, ein leistungsstarkes Modell, das für eine stärkere Verallgemeinerungsfähigkeit über eine Vielzahl von Szenarien hinweg entwickelt wurde, und Grounding DINO 1.5 Edge, ein effizientes Modell, das für die schnellere Geschwindigkeit optimiert ist, die in vielen Anwendungen mit Edge-Bereitstellung gefordert wird. Das Grounding DINO 1.5 Pro-Modell verbessert seinen Vorgänger, indem es die Modellarchitektur vergrößert, eine verbesserte Vision-Backbone integriert und den Trainingsdatensatz auf über 20 Millionen Bilder mit Grounding-Annotationen erweitert, um so ein tieferes semantisches Verständnis zu erreichen. Das Grounding DINO 1.5 Edge-Modell, das auf Effizienz ausgelegt ist und über reduzierte Merkmalsmaße verfügt, behält robuste Erkennungsfähigkeiten bei, indem es auf demselben umfassenden Datensatz trainiert wird. Empirische Ergebnisse zeigen die Wirksamkeit von Grounding DINO 1.5, wobei das Grounding DINO 1.5 Pro-Modell einen AP von 54,3 auf dem COCO-Detektionsbenchmark und einen AP von 55,7 auf dem LVIS-minival Zero-Shot-Transfer-Benchmark erreicht und damit neue Rekorde für die Open-Set-Objekterkennung setzt. Darüber hinaus erreicht das Grounding DINO 1.5 Edge-Modell, wenn es mit TensorRT optimiert wird, eine Geschwindigkeit von 75,2 FPS und erzielt einen Zero-Shot-Performance von 36,2 AP auf dem LVIS-minival-Benchmark, was es für Edge-Computing-Szenarien besser geeignet macht. Modellbeispiele und Demos mit API werden unter https://github.com/IDEA-Research/Grounding-DINO-1.5-API veröffentlicht.
English
This paper introduces Grounding DINO 1.5, a suite of advanced open-set object
detection models developed by IDEA Research, which aims to advance the "Edge"
of open-set object detection. The suite encompasses two models: Grounding DINO
1.5 Pro, a high-performance model designed for stronger generalization
capability across a wide range of scenarios, and Grounding DINO 1.5 Edge, an
efficient model optimized for faster speed demanded in many applications
requiring edge deployment. The Grounding DINO 1.5 Pro model advances its
predecessor by scaling up the model architecture, integrating an enhanced
vision backbone, and expanding the training dataset to over 20 million images
with grounding annotations, thereby achieving a richer semantic understanding.
The Grounding DINO 1.5 Edge model, while designed for efficiency with reduced
feature scales, maintains robust detection capabilities by being trained on the
same comprehensive dataset. Empirical results demonstrate the effectiveness of
Grounding DINO 1.5, with the Grounding DINO 1.5 Pro model attaining a 54.3 AP
on the COCO detection benchmark and a 55.7 AP on the LVIS-minival zero-shot
transfer benchmark, setting new records for open-set object detection.
Furthermore, the Grounding DINO 1.5 Edge model, when optimized with TensorRT,
achieves a speed of 75.2 FPS while attaining a zero-shot performance of 36.2 AP
on the LVIS-minival benchmark, making it more suitable for edge computing
scenarios. Model examples and demos with API will be released at
https://github.com/IDEA-Research/Grounding-DINO-1.5-APISummary
AI-Generated Summary