Semantische Concepten Injecteren in Image Tagging voor Open-Set Herkenning
Inject Semantic Concepts into Image Tagging for Open-Set Recognition
October 23, 2023
Auteurs: Xinyu Huang, Yi-Jie Huang, Youcai Zhang, Weiwei Tian, Rui Feng, Yuejie Zhang, Yanchun Xie, Yaqian Li, Lei Zhang
cs.AI
Samenvatting
In dit artikel introduceren we het Recognize Anything Plus Model (RAM++), een fundamenteel beeldherkenningsmodel met sterke open-set herkenningsmogelijkheden, door semantische concepten te integreren in het trainingsframework voor beeldtagging. Eerdere benaderingen zijn ofwel beeldtaggingmodellen die beperkt worden door beperkte semantiek, of visie-taalmodellen met oppervlakkige interactie die suboptimale prestaties leveren bij multi-tag herkenning. In tegenstelling hiermee integreert RAM++ beeld-tekstuitlijning en beeldtagging binnen een uniform fijnmazig interactieframework gebaseerd op beeld-tags-tekst tripletten. Dit ontwerp stelt RAM++ niet alleen in staat uit te blinken in het identificeren van vooraf gedefinieerde categorieën, maar versterkt ook aanzienlijk het herkenningsvermogen in open-set categorieën. Bovendien maakt RAM++ gebruik van grote taalmodellen (LLM's) om diverse visuele tagbeschrijvingen te genereren, waarmee het de integratie van LLM-kennis in beeldtaggingtraining pionierst. Deze aanpak stelt RAM++ in staat om visuele beschrijvingsconcepten te integreren voor open-set herkenning tijdens inferentie. Evaluaties op uitgebreide beeldherkenningsbenchmarks tonen aan dat RAM++ de bestaande state-of-the-art (SOTA) fundamentele beeldherkenningsmodellen op de meeste aspecten overtreft. Specifiek voor vooraf gedefinieerde veelgebruikte tagcategorieën toont RAM++ verbeteringen van 10.2 mAP en 15.4 mAP ten opzichte van CLIP op OpenImages en ImageNet. Voor open-set categorieën buiten de vooraf gedefinieerde, registreert RAM++ verbeteringen van 5 mAP en 6.4 mAP ten opzichte van CLIP en RAM op OpenImages. Voor diverse mens-object interactiezinnen behaalt RAM++ verbeteringen van 7.8 mAP en 4.7 mAP op de HICO benchmark. Code, datasets en vooraf getrainde modellen zijn beschikbaar op https://github.com/xinyu1205/recognize-anything.
English
In this paper, we introduce the Recognize Anything Plus Model~(RAM++), a
fundamental image recognition model with strong open-set recognition
capabilities, by injecting semantic concepts into image tagging training
framework. Previous approaches are either image tagging models constrained by
limited semantics, or vision-language models with shallow interaction for
suboptimal performance in multi-tag recognition. In contrast, RAM++ integrates
image-text alignment and image-tagging within a unified fine-grained
interaction framework based on image-tags-text triplets. This design enables
RAM++ not only excel in identifying predefined categories, but also
significantly augment the recognition ability in open-set categories. Moreover,
RAM++ employs large language models~(LLMs) to generate diverse visual tag
descriptions, pioneering the integration of LLM's knowledge into image tagging
training. This approach empowers RAM++ to integrate visual description concepts
for open-set recognition during inference. Evaluations on comprehensive image
recognition benchmarks demonstrate RAM++ exceeds existing state-of-the-art
(SOTA) fundamental image recognition models on most aspects. Specifically, for
predefined common-used tag categories, RAM++ showcases 10.2 mAP and 15.4 mAP
enhancements over CLIP on OpenImages and ImageNet. For open-set categories
beyond predefined, RAM++ records improvements of 5 mAP and 6.4 mAP over CLIP
and RAM respectively on OpenImages. For diverse human-object interaction
phrases, RAM++ achieves 7.8 mAP and 4.7 mAP improvements on the HICO benchmark.
Code, datasets and pre-trained models are available at
https://github.com/xinyu1205/recognize-anything.