HDINO: Un detector de vocabulario abierto conciso y eficiente

Resumen

A pesar del creciente interés en la detección de objetos de vocabulario abierto en los últimos años, la mayoría de los métodos existentes dependen en gran medida de conjuntos de datos de entrenamiento manualmente curados de grano fino, así como de una extracción de características cross-modal capa por capa que consume muchos recursos. En este artículo, proponemos HDINO, un detector de objetos de vocabulario abierto conciso pero eficiente que elimina la dependencia de estos componentes. Específicamente, proponemos una estrategia de entrenamiento de dos etapas basada en el modelo DINO basado en transformers. En la primera etapa, las muestras ruidosas se tratan como instancias de objetos positivas adicionales para construir un Mecanismo de Alineación Semántica Uno-a-Muchos (O2M) entre las modalidades visual y textual, facilitando así la alineación semántica. También se diseña una Pérdida de Clasificación Ponderada por Dificultad (DWCL) basada en la dificultad de detección inicial para minar ejemplos difíciles y mejorar aún más el rendimiento del modelo. En la segunda etapa, se aplica un módulo liviano de fusión de características a las representaciones alineadas para mejorar la sensibilidad a la semántica lingüística. Bajo la configuración Swin Transformer-T, HDINO-T alcanza 49.2 mAP en COCO utilizando 2.2M imágenes de entrenamiento de dos conjuntos de datos de detección disponibles públicamente, sin ninguna curación manual de datos y sin el uso de datos de grounding, superando a Grounding DINO-T y T-Rex2 en 0.8 mAP y 2.8 mAP, respectivamente, los cuales fueron entrenados con 5.4M y 6.5M de imágenes. Después del ajuste fino en COCO, HDINO-T y HDINO-L logran además 56.4 mAP y 59.2 mAP, destacando la efectividad y escalabilidad de nuestro enfoque. El código y los modelos están disponibles en https://github.com/HaoZ416/HDINO.

English

Despite the growing interest in open-vocabulary object detection in recent years, most existing methods rely heavily on manually curated fine-grained training datasets as well as resource-intensive layer-wise cross-modal feature extraction. In this paper, we propose HDINO, a concise yet efficient open-vocabulary object detector that eliminates the dependence on these components. Specifically, we propose a two-stage training strategy built upon the transformer-based DINO model. In the first stage, noisy samples are treated as additional positive object instances to construct a One-to-Many Semantic Alignment Mechanism(O2M) between the visual and textual modalities, thereby facilitating semantic alignment. A Difficulty Weighted Classification Loss (DWCL) is also designed based on initial detection difficulty to mine hard examples and further improve model performance. In the second stage, a lightweight feature fusion module is applied to the aligned representations to enhance sensitivity to linguistic semantics. Under the Swin Transformer-T setting, HDINO-T achieves 49.2 mAP on COCO using 2.2M training images from two publicly available detection datasets, without any manual data curation and the use of grounding data, surpassing Grounding DINO-T and T-Rex2 by 0.8 mAP and 2.8 mAP, respectively, which are trained on 5.4M and 6.5M images. After fine-tuning on COCO, HDINO-T and HDINO-L further achieve 56.4 mAP and 59.2 mAP, highlighting the effectiveness and scalability of our approach. Code and models are available at https://github.com/HaoZ416/HDINO.

HDINO: Un detector de vocabulario abierto conciso y eficiente

HDINO: A Concise and Efficient Open-Vocabulary Detector

Resumen

Support