HDINO: Компактный и эффективный детектор с открытым словарем
HDINO: A Concise and Efficient Open-Vocabulary Detector
March 3, 2026
Авторы: Hao Zhang, Yiqun Wang, Qinran Lin, Runze Fan, Yong Li
cs.AI
Аннотация
Несмотря на растущий интерес к обнаружению объектов с открытым словарем в последние годы, большинство существующих методов сильно зависят от тщательно подобранных вручную обучающих наборов данных с детальной разметкой, а также от ресурсоемкого послойного кросс-модального извлечения признаков. В данной статье мы предлагаем HDINO — лаконичный, но эффективный детектор объектов с открытым словарем, который устраняет зависимость от этих компонентов. В частности, мы предлагаем двухэтапную стратегию обучения, построенную на основе трансформерной модели DINO. На первом этапе зашумленные выборки рассматриваются как дополнительные позитивные примеры объектов для построения механизма семантического согласования «один-ко-многим» (O2M) между визуальной и текстовой модальностями, тем самым способствуя семантическому выравниванию. На основе исходной сложности детектирования также разработана функция потерь классификации с взвешиванием по сложности (DWCL) для выявления сложных примеров и дальнейшего улучшения производительности модели. На втором этапе к выровненным представлениям применяется легковесный модуль слияния признаков для повышения чувствительности к лингвистической семантике. В конфигурации Swin Transformer-T модель HDINO-T достигает показателя 49.2 mAP на наборе данных COCO, используя 2.2 млн обучающих изображений из двух общедоступных наборов данных для детекции, без какого-либо ручного отбора данных и использования данных с привязкой к местоположению, превосходя Grounding DINO-T и T-Rex2 на 0.8 mAP и 2.8 mAP соответственно, которые обучались на 5.4 млн и 6.5 млн изображений. После дообучения на COCO модели HDINO-T и HDINO-L дополнительно достигают 56.4 mAP и 59.2 mAP, что подчеркивает эффективность и масштабируемость нашего подхода. Код и модели доступны по адресу https://github.com/HaoZ416/HDINO.
English
Despite the growing interest in open-vocabulary object detection in recent years, most existing methods rely heavily on manually curated fine-grained training datasets as well as resource-intensive layer-wise cross-modal feature extraction. In this paper, we propose HDINO, a concise yet efficient open-vocabulary object detector that eliminates the dependence on these components. Specifically, we propose a two-stage training strategy built upon the transformer-based DINO model. In the first stage, noisy samples are treated as additional positive object instances to construct a One-to-Many Semantic Alignment Mechanism(O2M) between the visual and textual modalities, thereby facilitating semantic alignment. A Difficulty Weighted Classification Loss (DWCL) is also designed based on initial detection difficulty to mine hard examples and further improve model performance. In the second stage, a lightweight feature fusion module is applied to the aligned representations to enhance sensitivity to linguistic semantics. Under the Swin Transformer-T setting, HDINO-T achieves 49.2 mAP on COCO using 2.2M training images from two publicly available detection datasets, without any manual data curation and the use of grounding data, surpassing Grounding DINO-T and T-Rex2 by 0.8 mAP and 2.8 mAP, respectively, which are trained on 5.4M and 6.5M images. After fine-tuning on COCO, HDINO-T and HDINO-L further achieve 56.4 mAP and 59.2 mAP, highlighting the effectiveness and scalability of our approach. Code and models are available at https://github.com/HaoZ416/HDINO.