Semantische Konzepte in die Bildkennzeichnung für die Open-Set-Erkennung integrieren
Inject Semantic Concepts into Image Tagging for Open-Set Recognition
October 23, 2023
Autoren: Xinyu Huang, Yi-Jie Huang, Youcai Zhang, Weiwei Tian, Rui Feng, Yuejie Zhang, Yanchun Xie, Yaqian Li, Lei Zhang
cs.AI
Zusammenfassung
In diesem Artikel stellen wir das Recognize Anything Plus Model (RAM++) vor, ein grundlegendes Bilderkennungsmodell mit starken Fähigkeiten zur Erkennung offener Mengen, indem wir semantische Konzepte in das Framework für das Training von Bildbeschriftungen integrieren. Bisherige Ansätze sind entweder Bildbeschriftungsmodelle, die durch begrenzte Semantik eingeschränkt sind, oder Vision-Language-Modelle mit oberflächlicher Interaktion, die zu suboptimalen Leistungen bei der Erkennung mehrerer Tags führen. Im Gegensatz dazu integriert RAM++ die Ausrichtung von Bild-Text und Bildbeschriftung innerhalb eines einheitlichen, fein abgestimmten Interaktionsframeworks basierend auf Bild-Tag-Text-Tripeln. Dieser Entwurf ermöglicht es RAM++, nicht nur bei der Identifizierung vordefinierter Kategorien zu glänzen, sondern auch die Erkennungsfähigkeit in offenen Kategorien signifikant zu steigern. Darüber hinaus setzt RAM++ große Sprachmodelle (LLMs) ein, um vielfältige visuelle Tag-Beschreibungen zu generieren, und führt damit die Integration von LLM-Wissen in das Training von Bildbeschriftungen ein. Dieser Ansatz befähigt RAM++, visuelle Beschreibungskonzepte für die Erkennung offener Mengen während der Inferenz zu integrieren. Bewertungen auf umfassenden Benchmarks für die Bilderkennung zeigen, dass RAM++ die meisten bestehenden State-of-the-Art (SOTA) grundlegenden Bilderkennungsmodelle in den meisten Aspekten übertrifft. Insbesondere für vordefinierte, häufig verwendete Tag-Kategorien zeigt RAM++ Verbesserungen von 10,2 mAP und 15,4 mAP gegenüber CLIP auf OpenImages und ImageNet. Für offene Kategorien jenseits der Vordefinierten verzeichnet RAM++ Verbesserungen von 5 mAP und 6,4 mAP gegenüber CLIP und RAM auf OpenImages. Für vielfältige Mensch-Objekt-Interaktionsphrasen erzielt RAM++ Verbesserungen von 7,8 mAP und 4,7 mAP auf dem HICO-Benchmark. Code, Datensätze und vortrainierte Modelle sind verfügbar unter https://github.com/xinyu1205/recognize-anything.
English
In this paper, we introduce the Recognize Anything Plus Model~(RAM++), a
fundamental image recognition model with strong open-set recognition
capabilities, by injecting semantic concepts into image tagging training
framework. Previous approaches are either image tagging models constrained by
limited semantics, or vision-language models with shallow interaction for
suboptimal performance in multi-tag recognition. In contrast, RAM++ integrates
image-text alignment and image-tagging within a unified fine-grained
interaction framework based on image-tags-text triplets. This design enables
RAM++ not only excel in identifying predefined categories, but also
significantly augment the recognition ability in open-set categories. Moreover,
RAM++ employs large language models~(LLMs) to generate diverse visual tag
descriptions, pioneering the integration of LLM's knowledge into image tagging
training. This approach empowers RAM++ to integrate visual description concepts
for open-set recognition during inference. Evaluations on comprehensive image
recognition benchmarks demonstrate RAM++ exceeds existing state-of-the-art
(SOTA) fundamental image recognition models on most aspects. Specifically, for
predefined common-used tag categories, RAM++ showcases 10.2 mAP and 15.4 mAP
enhancements over CLIP on OpenImages and ImageNet. For open-set categories
beyond predefined, RAM++ records improvements of 5 mAP and 6.4 mAP over CLIP
and RAM respectively on OpenImages. For diverse human-object interaction
phrases, RAM++ achieves 7.8 mAP and 4.7 mAP improvements on the HICO benchmark.
Code, datasets and pre-trained models are available at
https://github.com/xinyu1205/recognize-anything.