ChatPaper.aiChatPaper

Intégrer des concepts sémantiques dans l'étiquetage d'images pour la reconnaissance en ensemble ouvert

Inject Semantic Concepts into Image Tagging for Open-Set Recognition

October 23, 2023
Auteurs: Xinyu Huang, Yi-Jie Huang, Youcai Zhang, Weiwei Tian, Rui Feng, Yuejie Zhang, Yanchun Xie, Yaqian Li, Lei Zhang
cs.AI

Résumé

Dans cet article, nous présentons le modèle Recognize Anything Plus (RAM++), un modèle fondamental de reconnaissance d'images doté de solides capacités de reconnaissance en ensemble ouvert, en injectant des concepts sémantiques dans le cadre d'entraînement d'étiquetage d'images. Les approches précédentes sont soit des modèles d'étiquetage d'images limités par une sémantique restreinte, soit des modèles vision-langage avec une interaction superficielle, conduisant à des performances sous-optimales dans la reconnaissance multi-étiquettes. En revanche, RAM++ intègre l'alignement image-texte et l'étiquetage d'images dans un cadre d'interaction fine unifié basé sur des triplets image-étiquettes-texte. Cette conception permet à RAM++ non seulement d'exceller dans l'identification des catégories prédéfinies, mais aussi d'augmenter significativement sa capacité de reconnaissance dans les catégories en ensemble ouvert. De plus, RAM++ utilise des modèles de langage de grande taille (LLM) pour générer des descriptions visuelles d'étiquettes diversifiées, pionnier dans l'intégration des connaissances des LLM dans l'entraînement d'étiquetage d'images. Cette approche permet à RAM++ d'intégrer des concepts de description visuelle pour la reconnaissance en ensemble ouvert lors de l'inférence. Les évaluations sur des benchmarks complets de reconnaissance d'images démontrent que RAM++ surpasse les modèles fondamentaux de reconnaissance d'images de pointe (SOTA) dans la plupart des aspects. Plus précisément, pour les catégories d'étiquettes couramment utilisées prédéfinies, RAM++ montre des améliorations de 10,2 mAP et 15,4 mAP par rapport à CLIP sur OpenImages et ImageNet. Pour les catégories en ensemble ouvert au-delà des prédéfinies, RAM++ enregistre des améliorations de 5 mAP et 6,4 mAP par rapport à CLIP et RAM respectivement sur OpenImages. Pour les phrases diverses d'interaction humain-objet, RAM++ atteint des améliorations de 7,8 mAP et 4,7 mAP sur le benchmark HICO. Le code, les ensembles de données et les modèles pré-entraînés sont disponibles à l'adresse https://github.com/xinyu1205/recognize-anything.
English
In this paper, we introduce the Recognize Anything Plus Model~(RAM++), a fundamental image recognition model with strong open-set recognition capabilities, by injecting semantic concepts into image tagging training framework. Previous approaches are either image tagging models constrained by limited semantics, or vision-language models with shallow interaction for suboptimal performance in multi-tag recognition. In contrast, RAM++ integrates image-text alignment and image-tagging within a unified fine-grained interaction framework based on image-tags-text triplets. This design enables RAM++ not only excel in identifying predefined categories, but also significantly augment the recognition ability in open-set categories. Moreover, RAM++ employs large language models~(LLMs) to generate diverse visual tag descriptions, pioneering the integration of LLM's knowledge into image tagging training. This approach empowers RAM++ to integrate visual description concepts for open-set recognition during inference. Evaluations on comprehensive image recognition benchmarks demonstrate RAM++ exceeds existing state-of-the-art (SOTA) fundamental image recognition models on most aspects. Specifically, for predefined common-used tag categories, RAM++ showcases 10.2 mAP and 15.4 mAP enhancements over CLIP on OpenImages and ImageNet. For open-set categories beyond predefined, RAM++ records improvements of 5 mAP and 6.4 mAP over CLIP and RAM respectively on OpenImages. For diverse human-object interaction phrases, RAM++ achieves 7.8 mAP and 4.7 mAP improvements on the HICO benchmark. Code, datasets and pre-trained models are available at https://github.com/xinyu1205/recognize-anything.
PDF61December 15, 2024