DINO-X: Um Modelo de Visão Unificada para Detecção e Compreensão de Objetos em Ambientes de Mundo Aberto
DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
November 21, 2024
Autores: Tianhe Ren, Yihao Chen, Qing Jiang, Zhaoyang Zeng, Yuda Xiong, Wenlong Liu, Zhengyu Ma, Junyi Shen, Yuan Gao, Xiaoke Jiang, Xingyu Chen, Zhuheng Song, Yuhong Zhang, Hongjie Huang, Han Gao, Shilong Liu, Hao Zhang, Feng Li, Kent Yu, Lei Zhang
cs.AI
Resumo
Neste artigo, apresentamos o DINO-X, que é um modelo unificado de visão centrado em objetos desenvolvido pela IDEA Research com o melhor desempenho de detecção de objetos em ambiente aberto até o momento. O DINO-X emprega a mesma arquitetura codificador-decodificador baseada em Transformer do Grounding DINO 1.5 para buscar uma representação em nível de objeto para compreensão de objetos em ambiente aberto. Para facilitar a detecção de objetos de cauda longa, o DINO-X estende suas opções de entrada para suportar prompt de texto, prompt visual e prompt personalizado. Com essas opções flexíveis de prompt, desenvolvemos um prompt de objeto universal para suportar detecção em ambiente aberto sem prompt, tornando possível detectar qualquer coisa em uma imagem sem exigir que os usuários forneçam qualquer prompt. Para aprimorar a capacidade central do modelo de fundamentação, construímos um conjunto de dados em grande escala com mais de 100 milhões de amostras de fundamentação de alta qualidade, denominado Grounding-100M, para avançar o desempenho de detecção de vocabulário aberto do modelo. O pré-treinamento em um conjunto de dados de fundamentação em grande escala leva a uma representação em nível de objeto fundamental, o que permite ao DINO-X integrar várias cabeças de percepção para suportar simultaneamente várias tarefas de percepção e compreensão de objetos, incluindo detecção, segmentação, estimativa de pose, legendagem de objetos, QA baseado em objetos, etc. Os resultados experimentais demonstram o desempenho superior do DINO-X. Especificamente, o modelo DINO-X Pro alcança 56,0 AP, 59,8 AP e 52,4 AP nos benchmarks de detecção de objetos zero-shot COCO, LVIS-minival e LVIS-val, respectivamente. Notavelmente, ele atinge 63,3 AP e 56,5 AP nas classes raras dos benchmarks LVIS-minival e LVIS-val, melhorando em 5,8 AP o desempenho anterior do estado da arte. Tal resultado destaca sua capacidade significativamente aprimorada para reconhecer objetos de cauda longa.
English
In this paper, we introduce DINO-X, which is a unified object-centric vision
model developed by IDEA Research with the best open-world object detection
performance to date. DINO-X employs the same Transformer-based encoder-decoder
architecture as Grounding DINO 1.5 to pursue an object-level representation for
open-world object understanding. To make long-tailed object detection easy,
DINO-X extends its input options to support text prompt, visual prompt, and
customized prompt. With such flexible prompt options, we develop a universal
object prompt to support prompt-free open-world detection, making it possible
to detect anything in an image without requiring users to provide any prompt.
To enhance the model's core grounding capability, we have constructed a
large-scale dataset with over 100 million high-quality grounding samples,
referred to as Grounding-100M, for advancing the model's open-vocabulary
detection performance. Pre-training on such a large-scale grounding dataset
leads to a foundational object-level representation, which enables DINO-X to
integrate multiple perception heads to simultaneously support multiple object
perception and understanding tasks, including detection, segmentation, pose
estimation, object captioning, object-based QA, etc. Experimental results
demonstrate the superior performance of DINO-X. Specifically, the DINO-X Pro
model achieves 56.0 AP, 59.8 AP, and 52.4 AP on the COCO, LVIS-minival, and
LVIS-val zero-shot object detection benchmarks, respectively. Notably, it
scores 63.3 AP and 56.5 AP on the rare classes of LVIS-minival and LVIS-val
benchmarks, both improving the previous SOTA performance by 5.8 AP. Such a
result underscores its significantly improved capacity for recognizing
long-tailed objects.Summary
AI-Generated Summary