Intégrer des concepts sémantiques dans l'étiquetage d'images pour la reconnaissance en ensemble ouvert
Inject Semantic Concepts into Image Tagging for Open-Set Recognition
October 23, 2023
Auteurs: Xinyu Huang, Yi-Jie Huang, Youcai Zhang, Weiwei Tian, Rui Feng, Yuejie Zhang, Yanchun Xie, Yaqian Li, Lei Zhang
cs.AI
Résumé
Dans cet article, nous présentons le modèle Recognize Anything Plus (RAM++), un modèle fondamental de reconnaissance d'images doté de solides capacités de reconnaissance en ensemble ouvert, en injectant des concepts sémantiques dans le cadre d'entraînement d'étiquetage d'images. Les approches précédentes sont soit des modèles d'étiquetage d'images limités par une sémantique restreinte, soit des modèles vision-langage avec une interaction superficielle, conduisant à des performances sous-optimales dans la reconnaissance multi-étiquettes. En revanche, RAM++ intègre l'alignement image-texte et l'étiquetage d'images dans un cadre d'interaction fine unifié basé sur des triplets image-étiquettes-texte. Cette conception permet à RAM++ non seulement d'exceller dans l'identification des catégories prédéfinies, mais aussi d'augmenter significativement sa capacité de reconnaissance dans les catégories en ensemble ouvert. De plus, RAM++ utilise des modèles de langage de grande taille (LLM) pour générer des descriptions visuelles d'étiquettes diversifiées, pionnier dans l'intégration des connaissances des LLM dans l'entraînement d'étiquetage d'images. Cette approche permet à RAM++ d'intégrer des concepts de description visuelle pour la reconnaissance en ensemble ouvert lors de l'inférence. Les évaluations sur des benchmarks complets de reconnaissance d'images démontrent que RAM++ surpasse les modèles fondamentaux de reconnaissance d'images de pointe (SOTA) dans la plupart des aspects. Plus précisément, pour les catégories d'étiquettes couramment utilisées prédéfinies, RAM++ montre des améliorations de 10,2 mAP et 15,4 mAP par rapport à CLIP sur OpenImages et ImageNet. Pour les catégories en ensemble ouvert au-delà des prédéfinies, RAM++ enregistre des améliorations de 5 mAP et 6,4 mAP par rapport à CLIP et RAM respectivement sur OpenImages. Pour les phrases diverses d'interaction humain-objet, RAM++ atteint des améliorations de 7,8 mAP et 4,7 mAP sur le benchmark HICO. Le code, les ensembles de données et les modèles pré-entraînés sont disponibles à l'adresse https://github.com/xinyu1205/recognize-anything.
English
In this paper, we introduce the Recognize Anything Plus Model~(RAM++), a
fundamental image recognition model with strong open-set recognition
capabilities, by injecting semantic concepts into image tagging training
framework. Previous approaches are either image tagging models constrained by
limited semantics, or vision-language models with shallow interaction for
suboptimal performance in multi-tag recognition. In contrast, RAM++ integrates
image-text alignment and image-tagging within a unified fine-grained
interaction framework based on image-tags-text triplets. This design enables
RAM++ not only excel in identifying predefined categories, but also
significantly augment the recognition ability in open-set categories. Moreover,
RAM++ employs large language models~(LLMs) to generate diverse visual tag
descriptions, pioneering the integration of LLM's knowledge into image tagging
training. This approach empowers RAM++ to integrate visual description concepts
for open-set recognition during inference. Evaluations on comprehensive image
recognition benchmarks demonstrate RAM++ exceeds existing state-of-the-art
(SOTA) fundamental image recognition models on most aspects. Specifically, for
predefined common-used tag categories, RAM++ showcases 10.2 mAP and 15.4 mAP
enhancements over CLIP on OpenImages and ImageNet. For open-set categories
beyond predefined, RAM++ records improvements of 5 mAP and 6.4 mAP over CLIP
and RAM respectively on OpenImages. For diverse human-object interaction
phrases, RAM++ achieves 7.8 mAP and 4.7 mAP improvements on the HICO benchmark.
Code, datasets and pre-trained models are available at
https://github.com/xinyu1205/recognize-anything.