ChatPaper.aiChatPaper

Grounding DINO 1.5: 오픈 세트 객체 탐지의 "에지"를 한 단계 더 발전시키다

Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection

May 16, 2024
저자: Tianhe Ren, Qing Jiang, Shilong Liu, Zhaoyang Zeng, Wenlong Liu, Han Gao, Hongjie Huang, Zhengyu Ma, Xiaoke Jiang, Yihao Chen, Yuda Xiong, Hao Zhang, Feng Li, Peijun Tang, Kent Yu, Lei Zhang
cs.AI

초록

본 논문은 IDEA Research에서 개발한 고급 오픈셋 객체 탐지 모델군인 Grounding DINO 1.5를 소개하며, 이는 오픈셋 객체 탐지의 "에지"를 발전시키는 것을 목표로 합니다. 이 모델군은 두 가지 모델로 구성됩니다: Grounding DINO 1.5 Pro는 다양한 시나리오에서 더 강력한 일반화 능력을 위해 설계된 고성능 모델이며, Grounding DINO 1.5 Edge는 에지 배포가 필요한 많은 애플리케이션에서 요구되는 빠른 속도를 위해 최적화된 효율적인 모델입니다. Grounding DINO 1.5 Pro 모델은 모델 아키텍처를 확장하고, 향상된 비전 백본을 통합하며, 2천만 장 이상의 그라운딩 주석이 포함된 학습 데이터셋을 확장함으로써 선행 모델을 발전시켜 더 풍부한 의미론적 이해를 달성했습니다. Grounding DINO 1.5 Edge 모델은 효율성을 위해 특징 스케일을 줄였지만, 동일한 포괄적인 데이터셋으로 학습함으로써 견고한 탐지 능력을 유지합니다. 실험 결과는 Grounding DINO 1.5의 효과를 입증하며, Grounding DINO 1.5 Pro 모델은 COCO 탐지 벤치마크에서 54.3 AP, LVIS-minival 제로샷 전이 벤치마크에서 55.7 AP를 달성하여 오픈셋 객체 탐지의 새로운 기록을 세웠습니다. 또한, Grounding DINO 1.5 Edge 모델은 TensorRT로 최적화했을 때 LVIS-minival 벤치마크에서 36.2 AP의 제로샷 성능을 유지하면서 75.2 FPS의 속도를 달성하여 에지 컴퓨팅 시나리오에 더 적합함을 보여줍니다. 모델 예제와 API 데모는 https://github.com/IDEA-Research/Grounding-DINO-1.5-API에서 공개될 예정입니다.
English
This paper introduces Grounding DINO 1.5, a suite of advanced open-set object detection models developed by IDEA Research, which aims to advance the "Edge" of open-set object detection. The suite encompasses two models: Grounding DINO 1.5 Pro, a high-performance model designed for stronger generalization capability across a wide range of scenarios, and Grounding DINO 1.5 Edge, an efficient model optimized for faster speed demanded in many applications requiring edge deployment. The Grounding DINO 1.5 Pro model advances its predecessor by scaling up the model architecture, integrating an enhanced vision backbone, and expanding the training dataset to over 20 million images with grounding annotations, thereby achieving a richer semantic understanding. The Grounding DINO 1.5 Edge model, while designed for efficiency with reduced feature scales, maintains robust detection capabilities by being trained on the same comprehensive dataset. Empirical results demonstrate the effectiveness of Grounding DINO 1.5, with the Grounding DINO 1.5 Pro model attaining a 54.3 AP on the COCO detection benchmark and a 55.7 AP on the LVIS-minival zero-shot transfer benchmark, setting new records for open-set object detection. Furthermore, the Grounding DINO 1.5 Edge model, when optimized with TensorRT, achieves a speed of 75.2 FPS while attaining a zero-shot performance of 36.2 AP on the LVIS-minival benchmark, making it more suitable for edge computing scenarios. Model examples and demos with API will be released at https://github.com/IDEA-Research/Grounding-DINO-1.5-API

Summary

AI-Generated Summary

PDF312December 15, 2024