DINO-X: Объединенная модель видения для обнаружения и понимания объектов в открытом мире
DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
November 21, 2024
Авторы: Tianhe Ren, Yihao Chen, Qing Jiang, Zhaoyang Zeng, Yuda Xiong, Wenlong Liu, Zhengyu Ma, Junyi Shen, Yuan Gao, Xiaoke Jiang, Xingyu Chen, Zhuheng Song, Yuhong Zhang, Hongjie Huang, Han Gao, Shilong Liu, Hao Zhang, Feng Li, Kent Yu, Lei Zhang
cs.AI
Аннотация
В данной статье мы представляем DINO-X, который является объединенной моделью зрения на объекты, разработанной IDEA Research с лучшей на сегодняшний день производительностью в области обнаружения объектов в открытом мире. DINO-X использует ту же архитектуру кодировщика-декодировщика на основе трансформера, что и Grounding DINO 1.5, чтобы стремиться к представлению объектов на уровне объекта для понимания объектов в открытом мире. Для упрощения обнаружения объектов с длинным хвостом DINO-X расширяет варианты ввода, чтобы поддерживать текстовую подсказку, визуальную подсказку и настраиваемую подсказку. С такими гибкими вариантами подсказок мы разработали универсальную объектную подсказку для поддержки бесподсказочного обнаружения объектов в открытом мире, что позволяет обнаруживать что угодно на изображении без необходимости предоставления пользователями какой-либо подсказки. Для улучшения основной способности модели к закреплению мы создали крупномасштабный набор данных с более чем 100 миллионами высококачественных образцов закрепления, известный как Grounding-100M, для улучшения производительности модели в обнаружении объектов с открытым словарем. Предварительное обучение на таком крупномасштабном наборе данных по закреплению приводит к основному представлению на уровне объекта, что позволяет DINO-X интегрировать несколько голов perception для одновременной поддержки нескольких задач восприятия и понимания объектов, включая обнаружение, сегментацию, оценку позы, подписывание объектов, объектно-ориентированный вопросно-ответный анализ и т. д. Экспериментальные результаты демонстрируют превосходную производительность DINO-X. В частности, модель DINO-X Pro достигает 56.0 AP, 59.8 AP и 52.4 AP на бенчмарках нулевого обнаружения объектов COCO, LVIS-minival и LVIS-val соответственно. Заметно, что она набирает 63.3 AP и 56.5 AP на редких классах бенчмарков LVIS-minival и LVIS-val, улучшая предыдущую производительность SOTA на 5.8 AP. Такой результат подчеркивает значительно улучшенную способность распознавания объектов с длинным хвостом.
English
In this paper, we introduce DINO-X, which is a unified object-centric vision
model developed by IDEA Research with the best open-world object detection
performance to date. DINO-X employs the same Transformer-based encoder-decoder
architecture as Grounding DINO 1.5 to pursue an object-level representation for
open-world object understanding. To make long-tailed object detection easy,
DINO-X extends its input options to support text prompt, visual prompt, and
customized prompt. With such flexible prompt options, we develop a universal
object prompt to support prompt-free open-world detection, making it possible
to detect anything in an image without requiring users to provide any prompt.
To enhance the model's core grounding capability, we have constructed a
large-scale dataset with over 100 million high-quality grounding samples,
referred to as Grounding-100M, for advancing the model's open-vocabulary
detection performance. Pre-training on such a large-scale grounding dataset
leads to a foundational object-level representation, which enables DINO-X to
integrate multiple perception heads to simultaneously support multiple object
perception and understanding tasks, including detection, segmentation, pose
estimation, object captioning, object-based QA, etc. Experimental results
demonstrate the superior performance of DINO-X. Specifically, the DINO-X Pro
model achieves 56.0 AP, 59.8 AP, and 52.4 AP on the COCO, LVIS-minival, and
LVIS-val zero-shot object detection benchmarks, respectively. Notably, it
scores 63.3 AP and 56.5 AP on the rare classes of LVIS-minival and LVIS-val
benchmarks, both improving the previous SOTA performance by 5.8 AP. Such a
result underscores its significantly improved capacity for recognizing
long-tailed objects.Summary
AI-Generated Summary