Улучшение DINO 1.5: Продвижение "края" обнаружения объектов с открытым набором.
Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection
May 16, 2024
Авторы: Tianhe Ren, Qing Jiang, Shilong Liu, Zhaoyang Zeng, Wenlong Liu, Han Gao, Hongjie Huang, Zhengyu Ma, Xiaoke Jiang, Yihao Chen, Yuda Xiong, Hao Zhang, Feng Li, Peijun Tang, Kent Yu, Lei Zhang
cs.AI
Аннотация
Данный документ представляет Grounding DINO 1.5, набор передовых моделей открытого обнаружения объектов, разработанных IDEA Research с целью продвижения "Edge" в области обнаружения объектов в открытом множестве. Набор включает две модели: Grounding DINO 1.5 Pro, высокопроизводительную модель, разработанную для более сильной обобщающей способности в широком спектре сценариев, и Grounding DINO 1.5 Edge, эффективную модель, оптимизированную для более быстрой скорости, необходимой во многих приложениях, требующих развертывания на краю. Модель Grounding DINO 1.5 Pro улучшает своего предшественника путем масштабирования архитектуры модели, интеграции улучшенного визионного каркаса и расширения обучающего набора данных до более чем 20 миллионов изображений с аннотациями по обоснованию, что позволяет достичь более глубокого семантического понимания. Модель Grounding DINO 1.5 Edge, хотя и разработана с учетом эффективности с уменьшенными масштабами признаков, сохраняет надежные возможности обнаружения благодаря обучению на том же полномасштабном наборе данных. Эмпирические результаты демонстрируют эффективность Grounding DINO 1.5, при этом модель Grounding DINO 1.5 Pro достигает показателя 54.3 AP на бенчмарке обнаружения COCO и 55.7 AP на бенчмарке нулевой передачи LVIS-minival, устанавливая новые рекорды в области обнаружения объектов в открытом множестве. Более того, модель Grounding DINO 1.5 Edge, оптимизированная с помощью TensorRT, достигает скорости 75.2 FPS, при этом достигая показателя 36.2 AP на бенчмарке LVIS-minival нулевой передачи, что делает ее более подходящей для сценариев вычислений на краю. Примеры моделей и демонстрации с API будут доступны по адресу https://github.com/IDEA-Research/Grounding-DINO-1.5-API.
English
This paper introduces Grounding DINO 1.5, a suite of advanced open-set object
detection models developed by IDEA Research, which aims to advance the "Edge"
of open-set object detection. The suite encompasses two models: Grounding DINO
1.5 Pro, a high-performance model designed for stronger generalization
capability across a wide range of scenarios, and Grounding DINO 1.5 Edge, an
efficient model optimized for faster speed demanded in many applications
requiring edge deployment. The Grounding DINO 1.5 Pro model advances its
predecessor by scaling up the model architecture, integrating an enhanced
vision backbone, and expanding the training dataset to over 20 million images
with grounding annotations, thereby achieving a richer semantic understanding.
The Grounding DINO 1.5 Edge model, while designed for efficiency with reduced
feature scales, maintains robust detection capabilities by being trained on the
same comprehensive dataset. Empirical results demonstrate the effectiveness of
Grounding DINO 1.5, with the Grounding DINO 1.5 Pro model attaining a 54.3 AP
on the COCO detection benchmark and a 55.7 AP on the LVIS-minival zero-shot
transfer benchmark, setting new records for open-set object detection.
Furthermore, the Grounding DINO 1.5 Edge model, when optimized with TensorRT,
achieves a speed of 75.2 FPS while attaining a zero-shot performance of 36.2 AP
on the LVIS-minival benchmark, making it more suitable for edge computing
scenarios. Model examples and demos with API will be released at
https://github.com/IDEA-Research/Grounding-DINO-1.5-APISummary
AI-Generated Summary