Iniettare Concetti Semantici nel Tagging delle Immagini per il Riconoscimento in Open-Set
Inject Semantic Concepts into Image Tagging for Open-Set Recognition
October 23, 2023
Autori: Xinyu Huang, Yi-Jie Huang, Youcai Zhang, Weiwei Tian, Rui Feng, Yuejie Zhang, Yanchun Xie, Yaqian Li, Lei Zhang
cs.AI
Abstract
In questo articolo, presentiamo il Recognize Anything Plus Model (RAM++), un modello fondamentale di riconoscimento delle immagini con forti capacità di riconoscimento in contesti aperti, ottenuto iniettando concetti semantici nel framework di addestramento per l'assegnazione di tag alle immagini. I precedenti approcci sono o modelli di assegnazione di tag limitati da una semantica ristretta, o modelli visione-linguaggio con interazioni superficiali che portano a prestazioni subottimali nel riconoscimento multi-tag. Al contrario, RAM++ integra l'allineamento immagine-testo e l'assegnazione di tag all'interno di un framework unificato di interazione granulare basato su triplette immagine-tag-testo. Questo design consente a RAM++ non solo di eccellere nell'identificazione di categorie predefinite, ma anche di aumentare significativamente la capacità di riconoscimento in categorie aperte. Inoltre, RAM++ utilizza grandi modelli linguistici (LLM) per generare descrizioni visive di tag diversificate, pionierizzando l'integrazione della conoscenza degli LLM nell'addestramento per l'assegnazione di tag. Questo approccio permette a RAM++ di integrare concetti di descrizione visiva per il riconoscimento in contesti aperti durante l'inferenza. Le valutazioni su benchmark completi di riconoscimento delle immagini dimostrano che RAM++ supera i modelli fondamentali di riconoscimento delle immagini allo stato dell'arte (SOTA) nella maggior parte degli aspetti. In particolare, per le categorie di tag predefinite di uso comune, RAM++ mostra miglioramenti di 10,2 mAP e 15,4 mAP rispetto a CLIP su OpenImages e ImageNet. Per le categorie aperte oltre quelle predefinite, RAM++ registra miglioramenti di 5 mAP e 6,4 mAP rispetto a CLIP e RAM rispettivamente su OpenImages. Per frasi diverse di interazione uomo-oggetto, RAM++ raggiunge miglioramenti di 7,8 mAP e 4,7 mAP sul benchmark HICO. Codice, dataset e modelli pre-addestrati sono disponibili su https://github.com/xinyu1205/recognize-anything.
English
In this paper, we introduce the Recognize Anything Plus Model~(RAM++), a
fundamental image recognition model with strong open-set recognition
capabilities, by injecting semantic concepts into image tagging training
framework. Previous approaches are either image tagging models constrained by
limited semantics, or vision-language models with shallow interaction for
suboptimal performance in multi-tag recognition. In contrast, RAM++ integrates
image-text alignment and image-tagging within a unified fine-grained
interaction framework based on image-tags-text triplets. This design enables
RAM++ not only excel in identifying predefined categories, but also
significantly augment the recognition ability in open-set categories. Moreover,
RAM++ employs large language models~(LLMs) to generate diverse visual tag
descriptions, pioneering the integration of LLM's knowledge into image tagging
training. This approach empowers RAM++ to integrate visual description concepts
for open-set recognition during inference. Evaluations on comprehensive image
recognition benchmarks demonstrate RAM++ exceeds existing state-of-the-art
(SOTA) fundamental image recognition models on most aspects. Specifically, for
predefined common-used tag categories, RAM++ showcases 10.2 mAP and 15.4 mAP
enhancements over CLIP on OpenImages and ImageNet. For open-set categories
beyond predefined, RAM++ records improvements of 5 mAP and 6.4 mAP over CLIP
and RAM respectively on OpenImages. For diverse human-object interaction
phrases, RAM++ achieves 7.8 mAP and 4.7 mAP improvements on the HICO benchmark.
Code, datasets and pre-trained models are available at
https://github.com/xinyu1205/recognize-anything.