ChatPaper.aiChatPaper

Grounding DINO 1.5: Avançando a "Fronteira" da Detecção de Objetos em Conjunto Aberto

Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection

May 16, 2024
Autores: Tianhe Ren, Qing Jiang, Shilong Liu, Zhaoyang Zeng, Wenlong Liu, Han Gao, Hongjie Huang, Zhengyu Ma, Xiaoke Jiang, Yihao Chen, Yuda Xiong, Hao Zhang, Feng Li, Peijun Tang, Kent Yu, Lei Zhang
cs.AI

Resumo

Este artigo apresenta o Grounding DINO 1.5, um conjunto de modelos avançados de detecção de objetos em conjunto aberto desenvolvido pela IDEA Research, que visa avançar a "fronteira" da detecção de objetos em conjunto aberto. O conjunto inclui dois modelos: o Grounding DINO 1.5 Pro, um modelo de alto desempenho projetado para uma capacidade de generalização mais forte em uma ampla gama de cenários, e o Grounding DINO 1.5 Edge, um modelo eficiente otimizado para maior velocidade, exigido em muitas aplicações que requerem implantação em edge. O modelo Grounding DINO 1.5 Pro avança em relação ao seu predecessor ao escalar a arquitetura do modelo, integrar uma backbone de visão aprimorada e expandir o conjunto de dados de treinamento para mais de 20 milhões de imagens com anotações de grounding, alcançando assim um entendimento semântico mais rico. O modelo Grounding DINO 1.5 Edge, embora projetado para eficiência com escalas de características reduzidas, mantém capacidades robustas de detecção ao ser treinado no mesmo conjunto de dados abrangente. Resultados empíricos demonstram a eficácia do Grounding DINO 1.5, com o modelo Grounding DINO 1.5 Pro atingindo 54,3 AP no benchmark de detecção COCO e 55,7 AP no benchmark de transferência zero-shot LVIS-minival, estabelecendo novos recordes para detecção de objetos em conjunto aberto. Além disso, o modelo Grounding DINO 1.5 Edge, quando otimizado com TensorRT, alcança uma velocidade de 75,2 FPS enquanto atinge um desempenho zero-shot de 36,2 AP no benchmark LVIS-minival, tornando-o mais adequado para cenários de computação em edge. Exemplos de modelos e demonstrações com API serão lançados em https://github.com/IDEA-Research/Grounding-DINO-1.5-API.
English
This paper introduces Grounding DINO 1.5, a suite of advanced open-set object detection models developed by IDEA Research, which aims to advance the "Edge" of open-set object detection. The suite encompasses two models: Grounding DINO 1.5 Pro, a high-performance model designed for stronger generalization capability across a wide range of scenarios, and Grounding DINO 1.5 Edge, an efficient model optimized for faster speed demanded in many applications requiring edge deployment. The Grounding DINO 1.5 Pro model advances its predecessor by scaling up the model architecture, integrating an enhanced vision backbone, and expanding the training dataset to over 20 million images with grounding annotations, thereby achieving a richer semantic understanding. The Grounding DINO 1.5 Edge model, while designed for efficiency with reduced feature scales, maintains robust detection capabilities by being trained on the same comprehensive dataset. Empirical results demonstrate the effectiveness of Grounding DINO 1.5, with the Grounding DINO 1.5 Pro model attaining a 54.3 AP on the COCO detection benchmark and a 55.7 AP on the LVIS-minival zero-shot transfer benchmark, setting new records for open-set object detection. Furthermore, the Grounding DINO 1.5 Edge model, when optimized with TensorRT, achieves a speed of 75.2 FPS while attaining a zero-shot performance of 36.2 AP on the LVIS-minival benchmark, making it more suitable for edge computing scenarios. Model examples and demos with API will be released at https://github.com/IDEA-Research/Grounding-DINO-1.5-API
PDF302December 15, 2024