Внедрение семантических концептов в маркировку изображений для распознавания в открытом множестве
Inject Semantic Concepts into Image Tagging for Open-Set Recognition
October 23, 2023
Авторы: Xinyu Huang, Yi-Jie Huang, Youcai Zhang, Weiwei Tian, Rui Feng, Yuejie Zhang, Yanchun Xie, Yaqian Li, Lei Zhang
cs.AI
Аннотация
В данной статье мы представляем модель Recognize Anything Plus (RAM++), фундаментальную модель распознавания изображений с мощными возможностями распознавания в открытом множестве, путем внедрения семантических концепций в процесс обучения маркировки изображений. Предыдущие подходы либо ограничивались моделями маркировки изображений с ограниченной семантикой, либо представляли собой модели взаимодействия визуальных и текстовых данных с поверхностным взаимодействием, что приводило к неоптимальной производительности в распознавании множества тегов. В отличие от них, RAM++ объединяет выравнивание изображений и текста с маркировкой изображений в рамках единой системы тонкого взаимодействия, основанной на триплетах "изображение-тег-текст". Такая конструкция позволяет RAM++ не только превосходно справляться с распознаванием предопределенных категорий, но и значительно расширять возможности распознавания в открытых категориях. Кроме того, RAM++ использует большие языковые модели (LLM) для генерации разнообразных визуальных описаний тегов, впервые интегрируя знания LLM в процесс обучения маркировки изображений. Этот подход позволяет RAM++ интегрировать концепции визуальных описаний для распознавания в открытом множестве на этапе вывода. Оценки на комплексных тестах распознавания изображений демонстрируют, что RAM++ превосходит существующие передовые (SOTA) фундаментальные модели распознавания изображений по большинству аспектов. В частности, для предопределенных часто используемых категорий тегов RAM++ показывает улучшения на 10,2 mAP и 15,4 mAP по сравнению с CLIP на наборах данных OpenImages и ImageNet. Для открытых категорий, выходящих за пределы предопределенных, RAM++ фиксирует улучшения на 5 mAP и 6,4 mAP по сравнению с CLIP и RAM соответственно на OpenImages. Для разнообразных фраз взаимодействия человека и объекта RAM++ достигает улучшений на 7,8 mAP и 4,7 mAP на тесте HICO. Код, наборы данных и предобученные модели доступны по адресу https://github.com/xinyu1205/recognize-anything.
English
In this paper, we introduce the Recognize Anything Plus Model~(RAM++), a
fundamental image recognition model with strong open-set recognition
capabilities, by injecting semantic concepts into image tagging training
framework. Previous approaches are either image tagging models constrained by
limited semantics, or vision-language models with shallow interaction for
suboptimal performance in multi-tag recognition. In contrast, RAM++ integrates
image-text alignment and image-tagging within a unified fine-grained
interaction framework based on image-tags-text triplets. This design enables
RAM++ not only excel in identifying predefined categories, but also
significantly augment the recognition ability in open-set categories. Moreover,
RAM++ employs large language models~(LLMs) to generate diverse visual tag
descriptions, pioneering the integration of LLM's knowledge into image tagging
training. This approach empowers RAM++ to integrate visual description concepts
for open-set recognition during inference. Evaluations on comprehensive image
recognition benchmarks demonstrate RAM++ exceeds existing state-of-the-art
(SOTA) fundamental image recognition models on most aspects. Specifically, for
predefined common-used tag categories, RAM++ showcases 10.2 mAP and 15.4 mAP
enhancements over CLIP on OpenImages and ImageNet. For open-set categories
beyond predefined, RAM++ records improvements of 5 mAP and 6.4 mAP over CLIP
and RAM respectively on OpenImages. For diverse human-object interaction
phrases, RAM++ achieves 7.8 mAP and 4.7 mAP improvements on the HICO benchmark.
Code, datasets and pre-trained models are available at
https://github.com/xinyu1205/recognize-anything.