Grounding DINO 1.5 : Repousser les limites de la détection d'objens en ensemble ouvert
Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection
May 16, 2024
Auteurs: Tianhe Ren, Qing Jiang, Shilong Liu, Zhaoyang Zeng, Wenlong Liu, Han Gao, Hongjie Huang, Zhengyu Ma, Xiaoke Jiang, Yihao Chen, Yuda Xiong, Hao Zhang, Feng Li, Peijun Tang, Kent Yu, Lei Zhang
cs.AI
Résumé
Ce document présente Grounding DINO 1.5, une suite de modèles avancés de détection d'objets en ensemble ouvert développés par IDEA Research, visant à repousser les limites de la détection d'objets en ensemble ouvert. La suite comprend deux modèles : Grounding DINO 1.5 Pro, un modèle haute performance conçu pour une meilleure capacité de généralisation dans un large éventail de scénarios, et Grounding DINO 1.5 Edge, un modèle optimisé pour une vitesse accrue, répondant aux exigences de nombreuses applications nécessitant un déploiement en périphérie. Le modèle Grounding DINO 1.5 Pro améliore son prédécesseur en augmentant l'architecture du modèle, en intégrant un backbone visuel amélioré et en élargissant le jeu de données d'entraînement à plus de 20 millions d'images avec des annotations de grounding, permettant ainsi une compréhension sémantique plus riche. Le modèle Grounding DINO 1.5 Edge, bien que conçu pour l'efficacité avec des échelles de caractéristiques réduites, maintient des capacités de détection robustes grâce à son entraînement sur le même jeu de données complet. Les résultats empiriques démontrent l'efficacité de Grounding DINO 1.5, avec le modèle Grounding DINO 1.5 Pro atteignant un AP de 54,3 sur le benchmark de détection COCO et un AP de 55,7 sur le benchmark de transfert zero-shot LVIS-minival, établissant ainsi de nouveaux records pour la détection d'objets en ensemble ouvert. Par ailleurs, le modèle Grounding DINO 1.5 Edge, optimisé avec TensorRT, atteint une vitesse de 75,2 FPS tout en obtenant une performance zero-shot de 36,2 AP sur le benchmark LVIS-minival, le rendant plus adapté aux scénarios de calcul en périphérie. Des exemples de modèles et des démonstrations avec API seront disponibles sur https://github.com/IDEA-Research/Grounding-DINO-1.5-API.
English
This paper introduces Grounding DINO 1.5, a suite of advanced open-set object
detection models developed by IDEA Research, which aims to advance the "Edge"
of open-set object detection. The suite encompasses two models: Grounding DINO
1.5 Pro, a high-performance model designed for stronger generalization
capability across a wide range of scenarios, and Grounding DINO 1.5 Edge, an
efficient model optimized for faster speed demanded in many applications
requiring edge deployment. The Grounding DINO 1.5 Pro model advances its
predecessor by scaling up the model architecture, integrating an enhanced
vision backbone, and expanding the training dataset to over 20 million images
with grounding annotations, thereby achieving a richer semantic understanding.
The Grounding DINO 1.5 Edge model, while designed for efficiency with reduced
feature scales, maintains robust detection capabilities by being trained on the
same comprehensive dataset. Empirical results demonstrate the effectiveness of
Grounding DINO 1.5, with the Grounding DINO 1.5 Pro model attaining a 54.3 AP
on the COCO detection benchmark and a 55.7 AP on the LVIS-minival zero-shot
transfer benchmark, setting new records for open-set object detection.
Furthermore, the Grounding DINO 1.5 Edge model, when optimized with TensorRT,
achieves a speed of 75.2 FPS while attaining a zero-shot performance of 36.2 AP
on the LVIS-minival benchmark, making it more suitable for edge computing
scenarios. Model examples and demos with API will be released at
https://github.com/IDEA-Research/Grounding-DINO-1.5-APISummary
AI-Generated Summary