HDINO: Um Detector de Vocabulário Aberto Conciso e Eficiente
HDINO: A Concise and Efficient Open-Vocabulary Detector
March 3, 2026
Autores: Hao Zhang, Yiqun Wang, Qinran Lin, Runze Fan, Yong Li
cs.AI
Resumo
Apesar do crescente interesse na detecção de objetos de vocabulário aberto nos últimos anos, a maioria dos métodos existentes depende fortemente de conjuntos de dados de treinamento manualmente curados com granularidade fina, bem como da extração de características cruzadas entre modalidades camada por camada, que consome muitos recursos. Neste artigo, propomos o HDINO, um detector de objetos de vocabulário aberto conciso mas eficiente, que elimina a dependência desses componentes. Especificamente, propomos uma estratégia de treinamento em dois estágios construída sobre o modelo DINO baseado em transformer. No primeiro estágio, amostras ruidosas são tratadas como instâncias de objetos positivas adicionais para construir um Mecanismo de Alinhamento Semântico Um-para-Muitos (O2M) entre as modalidades visual e textual, facilitando assim o alinhamento semântico. Uma Perda de Classificação Ponderada por Dificuldade (DWCL) também é projetada com base na dificuldade inicial de detecção para minerar exemplos difíceis e melhorar ainda mais o desempenho do modelo. No segundo estágio, um módulo leve de fusão de características é aplicado às representações alinhadas para aumentar a sensibilidade à semântica linguística. Sob a configuração Swin Transformer-T, o HDINO-T atinge 49,2 mAP no COCO usando 2,2 milhões de imagens de treinamento de dois conjuntos de dados de detecção publicamente disponíveis, sem qualquer curadoria manual de dados e sem o uso de dados de grounding, superando o Grounding DINO-T e o T-Rex2 em 0,8 mAP e 2,8 mAP, respectivamente, os quais foram treinados em 5,4 milhões e 6,5 milhões de imagens. Após o ajuste fino no COCO, o HDINO-T e o HDINO-L atingem ainda 56,4 mAP e 59,2 mAP, destacando a eficácia e escalabilidade da nossa abordagem. Código e modelos estão disponíveis em https://github.com/HaoZ416/HDINO.
English
Despite the growing interest in open-vocabulary object detection in recent years, most existing methods rely heavily on manually curated fine-grained training datasets as well as resource-intensive layer-wise cross-modal feature extraction. In this paper, we propose HDINO, a concise yet efficient open-vocabulary object detector that eliminates the dependence on these components. Specifically, we propose a two-stage training strategy built upon the transformer-based DINO model. In the first stage, noisy samples are treated as additional positive object instances to construct a One-to-Many Semantic Alignment Mechanism(O2M) between the visual and textual modalities, thereby facilitating semantic alignment. A Difficulty Weighted Classification Loss (DWCL) is also designed based on initial detection difficulty to mine hard examples and further improve model performance. In the second stage, a lightweight feature fusion module is applied to the aligned representations to enhance sensitivity to linguistic semantics. Under the Swin Transformer-T setting, HDINO-T achieves 49.2 mAP on COCO using 2.2M training images from two publicly available detection datasets, without any manual data curation and the use of grounding data, surpassing Grounding DINO-T and T-Rex2 by 0.8 mAP and 2.8 mAP, respectively, which are trained on 5.4M and 6.5M images. After fine-tuning on COCO, HDINO-T and HDINO-L further achieve 56.4 mAP and 59.2 mAP, highlighting the effectiveness and scalability of our approach. Code and models are available at https://github.com/HaoZ416/HDINO.