DINO-X: Un modelo de visión unificado para la detección y comprensión de objetos en un mundo abierto

Resumen

En este documento, presentamos DINO-X, que es un modelo unificado de visión centrado en objetos desarrollado por IDEA Research con el mejor rendimiento de detección de objetos en entornos abiertos hasta la fecha. DINO-X emplea la misma arquitectura codificador-decodificador basada en Transformer que Grounding DINO 1.5 para buscar una representación a nivel de objeto para la comprensión de objetos en entornos abiertos. Para facilitar la detección de objetos de cola larga, DINO-X amplía sus opciones de entrada para admitir indicaciones de texto, indicaciones visuales y indicaciones personalizadas. Con estas opciones de indicaciones flexibles, desarrollamos una indicación de objeto universal para admitir la detección en entornos abiertos sin indicaciones, lo que permite detectar cualquier cosa en una imagen sin requerir que los usuarios proporcionen ninguna indicación. Para mejorar la capacidad central del modelo de fundamentación, hemos construido un conjunto de datos a gran escala con más de 100 millones de muestras de fundamentación de alta calidad, denominado Grounding-100M, para mejorar el rendimiento de detección de vocabulario abierto del modelo. El preentrenamiento en un conjunto de datos de fundamentación a gran escala conduce a una representación a nivel de objeto fundamental, que permite a DINO-X integrar múltiples cabezas de percepción para admitir simultáneamente múltiples tareas de percepción y comprensión de objetos, incluyendo detección, segmentación, estimación de postura, descripción de objetos, preguntas y respuestas basadas en objetos, etc. Los resultados experimentales demuestran el rendimiento superior de DINO-X. Específicamente, el modelo DINO-X Pro logra 56.0 AP, 59.8 AP y 52.4 AP en los puntos de referencia de detección de objetos de cero disparo COCO, LVIS-minival y LVIS-val, respectivamente. Notablemente, obtiene 63.3 AP y 56.5 AP en las clases raras de los puntos de referencia LVIS-minival y LVIS-val, mejorando el rendimiento anterior del estado del arte en 5.8 AP en ambos casos. Este resultado subraya su capacidad significativamente mejorada para reconocer objetos de cola larga.

English

In this paper, we introduce DINO-X, which is a unified object-centric vision model developed by IDEA Research with the best open-world object detection performance to date. DINO-X employs the same Transformer-based encoder-decoder architecture as Grounding DINO 1.5 to pursue an object-level representation for open-world object understanding. To make long-tailed object detection easy, DINO-X extends its input options to support text prompt, visual prompt, and customized prompt. With such flexible prompt options, we develop a universal object prompt to support prompt-free open-world detection, making it possible to detect anything in an image without requiring users to provide any prompt. To enhance the model's core grounding capability, we have constructed a large-scale dataset with over 100 million high-quality grounding samples, referred to as Grounding-100M, for advancing the model's open-vocabulary detection performance. Pre-training on such a large-scale grounding dataset leads to a foundational object-level representation, which enables DINO-X to integrate multiple perception heads to simultaneously support multiple object perception and understanding tasks, including detection, segmentation, pose estimation, object captioning, object-based QA, etc. Experimental results demonstrate the superior performance of DINO-X. Specifically, the DINO-X Pro model achieves 56.0 AP, 59.8 AP, and 52.4 AP on the COCO, LVIS-minival, and LVIS-val zero-shot object detection benchmarks, respectively. Notably, it scores 63.3 AP and 56.5 AP on the rare classes of LVIS-minival and LVIS-val benchmarks, both improving the previous SOTA performance by 5.8 AP. Such a result underscores its significantly improved capacity for recognizing long-tailed objects.

DINO-X: Un modelo de visión unificado para la detección y comprensión de objetos en un mundo abierto

DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding

Resumen

Support