HDINO: Un Rilevatore Open-Vocabulary Conciso ed Efficiente

Abstract

Nonostante il crescente interesse per la rilevazione di oggetti a vocabolario aperto negli ultimi anni, la maggior parte dei metodi esistenti dipende fortemente da dataset di addestramento manualmente curati, con annotazioni granulari, nonché da un'estrazione di feature cross-modale strato per strato ad alta intensità di risorse. In questo articolo proponiamo HDINO, un rilevatore di oggetti a vocabolario aperto conciso ma efficiente che elimina la dipendenza da questi componenti. Nello specifico, proponiamo una strategia di addestramento in due fasi costruita sul modello DINO basato su transformer. Nella prima fase, i campioni rumorosi vengono trattati come istanze oggetto positive aggiuntive per costruire un Meccanismo di Allineamento Semantico Uno-a-Molti (O2M) tra le modalità visiva e testuale, facilitando così l'allineamento semantico. Una Loss di Classificazione Pesata per Difficoltà (DWCL) è inoltre progettata sulla base della difficoltà di rilevazione iniziale per individuare esempi complessi e migliorare ulteriormente le prestazioni del modello. Nella seconda fase, un modulo di fusione delle feature leggero viene applicato alle rappresentazioni allineate per aumentare la sensibilità alla semantica linguistica. Nella configurazione Swin Transformer-T, HDINO-T raggiunge 49.2 mAP su COCO utilizzando 2.2 milioni di immagini di addestramento provenienti da due dataset di rilevazione pubblicamente disponibili, senza alcuna curatela manuale dei dati e senza l'uso di dati di grounding, superando Grounding DINO-T e T-Rex2 di 0.8 mAP e 2.8 mAP rispettivamente, i quali sono addestrati su 5.4 milioni e 6.5 milioni di immagini. Dopo un fine-tuning su COCO, HDINO-T e HDINO-L raggiungono ulteriormente 56.4 mAP e 59.2 mAP, evidenziando l'efficacia e la scalabilità del nostro approccio. Il codice e i modelli sono disponibili su https://github.com/HaoZ416/HDINO.

English

Despite the growing interest in open-vocabulary object detection in recent years, most existing methods rely heavily on manually curated fine-grained training datasets as well as resource-intensive layer-wise cross-modal feature extraction. In this paper, we propose HDINO, a concise yet efficient open-vocabulary object detector that eliminates the dependence on these components. Specifically, we propose a two-stage training strategy built upon the transformer-based DINO model. In the first stage, noisy samples are treated as additional positive object instances to construct a One-to-Many Semantic Alignment Mechanism(O2M) between the visual and textual modalities, thereby facilitating semantic alignment. A Difficulty Weighted Classification Loss (DWCL) is also designed based on initial detection difficulty to mine hard examples and further improve model performance. In the second stage, a lightweight feature fusion module is applied to the aligned representations to enhance sensitivity to linguistic semantics. Under the Swin Transformer-T setting, HDINO-T achieves 49.2 mAP on COCO using 2.2M training images from two publicly available detection datasets, without any manual data curation and the use of grounding data, surpassing Grounding DINO-T and T-Rex2 by 0.8 mAP and 2.8 mAP, respectively, which are trained on 5.4M and 6.5M images. After fine-tuning on COCO, HDINO-T and HDINO-L further achieve 56.4 mAP and 59.2 mAP, highlighting the effectiveness and scalability of our approach. Code and models are available at https://github.com/HaoZ416/HDINO.

HDINO: Un Rilevatore Open-Vocabulary Conciso ed Efficiente

HDINO: A Concise and Efficient Open-Vocabulary Detector

Abstract

Support