DINO-X: Un modelo de visión unificado para la detección y comprensión de objetos en un mundo abierto
DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
November 21, 2024
Autores: Tianhe Ren, Yihao Chen, Qing Jiang, Zhaoyang Zeng, Yuda Xiong, Wenlong Liu, Zhengyu Ma, Junyi Shen, Yuan Gao, Xiaoke Jiang, Xingyu Chen, Zhuheng Song, Yuhong Zhang, Hongjie Huang, Han Gao, Shilong Liu, Hao Zhang, Feng Li, Kent Yu, Lei Zhang
cs.AI
Resumen
En este documento, presentamos DINO-X, que es un modelo unificado de visión centrado en objetos desarrollado por IDEA Research con el mejor rendimiento de detección de objetos en entornos abiertos hasta la fecha. DINO-X emplea la misma arquitectura codificador-decodificador basada en Transformer que Grounding DINO 1.5 para buscar una representación a nivel de objeto para la comprensión de objetos en entornos abiertos. Para facilitar la detección de objetos de cola larga, DINO-X amplía sus opciones de entrada para admitir indicaciones de texto, indicaciones visuales y indicaciones personalizadas. Con estas opciones de indicaciones flexibles, desarrollamos una indicación de objeto universal para admitir la detección en entornos abiertos sin indicaciones, lo que permite detectar cualquier cosa en una imagen sin requerir que los usuarios proporcionen ninguna indicación. Para mejorar la capacidad central del modelo de fundamentación, hemos construido un conjunto de datos a gran escala con más de 100 millones de muestras de fundamentación de alta calidad, denominado Grounding-100M, para mejorar el rendimiento de detección de vocabulario abierto del modelo. El preentrenamiento en un conjunto de datos de fundamentación a gran escala conduce a una representación a nivel de objeto fundamental, que permite a DINO-X integrar múltiples cabezas de percepción para admitir simultáneamente múltiples tareas de percepción y comprensión de objetos, incluyendo detección, segmentación, estimación de postura, descripción de objetos, preguntas y respuestas basadas en objetos, etc. Los resultados experimentales demuestran el rendimiento superior de DINO-X. Específicamente, el modelo DINO-X Pro logra 56.0 AP, 59.8 AP y 52.4 AP en los puntos de referencia de detección de objetos de cero disparo COCO, LVIS-minival y LVIS-val, respectivamente. Notablemente, obtiene 63.3 AP y 56.5 AP en las clases raras de los puntos de referencia LVIS-minival y LVIS-val, mejorando el rendimiento anterior del estado del arte en 5.8 AP en ambos casos. Este resultado subraya su capacidad significativamente mejorada para reconocer objetos de cola larga.
English
In this paper, we introduce DINO-X, which is a unified object-centric vision
model developed by IDEA Research with the best open-world object detection
performance to date. DINO-X employs the same Transformer-based encoder-decoder
architecture as Grounding DINO 1.5 to pursue an object-level representation for
open-world object understanding. To make long-tailed object detection easy,
DINO-X extends its input options to support text prompt, visual prompt, and
customized prompt. With such flexible prompt options, we develop a universal
object prompt to support prompt-free open-world detection, making it possible
to detect anything in an image without requiring users to provide any prompt.
To enhance the model's core grounding capability, we have constructed a
large-scale dataset with over 100 million high-quality grounding samples,
referred to as Grounding-100M, for advancing the model's open-vocabulary
detection performance. Pre-training on such a large-scale grounding dataset
leads to a foundational object-level representation, which enables DINO-X to
integrate multiple perception heads to simultaneously support multiple object
perception and understanding tasks, including detection, segmentation, pose
estimation, object captioning, object-based QA, etc. Experimental results
demonstrate the superior performance of DINO-X. Specifically, the DINO-X Pro
model achieves 56.0 AP, 59.8 AP, and 52.4 AP on the COCO, LVIS-minival, and
LVIS-val zero-shot object detection benchmarks, respectively. Notably, it
scores 63.3 AP and 56.5 AP on the rare classes of LVIS-minival and LVIS-val
benchmarks, both improving the previous SOTA performance by 5.8 AP. Such a
result underscores its significantly improved capacity for recognizing
long-tailed objects.Summary
AI-Generated Summary