Injetar Conceitos Semânticos na Etiquetagem de Imagens para Reconhecimento em Conjunto Aberto
Inject Semantic Concepts into Image Tagging for Open-Set Recognition
October 23, 2023
Autores: Xinyu Huang, Yi-Jie Huang, Youcai Zhang, Weiwei Tian, Rui Feng, Yuejie Zhang, Yanchun Xie, Yaqian Li, Lei Zhang
cs.AI
Resumo
Neste artigo, apresentamos o Recognize Anything Plus Model (RAM++), um modelo fundamental de reconhecimento de imagem com fortes capacidades de reconhecimento em conjunto aberto, ao injetar conceitos semânticos no framework de treinamento de etiquetagem de imagens. Abordagens anteriores são modelos de etiquetagem de imagens limitados por semântica restrita ou modelos de visão-linguagem com interação superficial, resultando em desempenho subótimo no reconhecimento de múltiplas etiquetas. Em contraste, o RAM++ integra alinhamento imagem-texto e etiquetagem de imagens dentro de um framework unificado de interação refinada baseado em triplas imagem-etiqueta-texto. Esse design permite que o RAM++ não apenas se destaque na identificação de categorias predefinidas, mas também aumente significativamente a capacidade de reconhecimento em categorias de conjunto aberto. Além disso, o RAM++ emprega grandes modelos de linguagem (LLMs) para gerar descrições visuais de etiquetas diversas, pioneiro na integração do conhecimento de LLMs no treinamento de etiquetagem de imagens. Essa abordagem capacita o RAM++ a integrar conceitos de descrição visual para reconhecimento em conjunto aberto durante a inferência. Avaliações em benchmarks abrangentes de reconhecimento de imagem demonstram que o RAM++ supera os modelos fundamentais de reconhecimento de imagem state-of-the-art (SOTA) na maioria dos aspectos. Especificamente, para categorias de etiquetas comuns predefinidas, o RAM++ apresenta melhorias de 10,2 mAP e 15,4 mAP sobre o CLIP em OpenImages e ImageNet. Para categorias de conjunto aberto além das predefinidas, o RAM++ registra melhorias de 5 mAP e 6,4 mAP sobre o CLIP e o RAM, respectivamente, em OpenImages. Para frases diversas de interação humano-objeto, o RAM++ alcança melhorias de 7,8 mAP e 4,7 mAP no benchmark HICO. Código, datasets e modelos pré-treinados estão disponíveis em https://github.com/xinyu1205/recognize-anything.
English
In this paper, we introduce the Recognize Anything Plus Model~(RAM++), a
fundamental image recognition model with strong open-set recognition
capabilities, by injecting semantic concepts into image tagging training
framework. Previous approaches are either image tagging models constrained by
limited semantics, or vision-language models with shallow interaction for
suboptimal performance in multi-tag recognition. In contrast, RAM++ integrates
image-text alignment and image-tagging within a unified fine-grained
interaction framework based on image-tags-text triplets. This design enables
RAM++ not only excel in identifying predefined categories, but also
significantly augment the recognition ability in open-set categories. Moreover,
RAM++ employs large language models~(LLMs) to generate diverse visual tag
descriptions, pioneering the integration of LLM's knowledge into image tagging
training. This approach empowers RAM++ to integrate visual description concepts
for open-set recognition during inference. Evaluations on comprehensive image
recognition benchmarks demonstrate RAM++ exceeds existing state-of-the-art
(SOTA) fundamental image recognition models on most aspects. Specifically, for
predefined common-used tag categories, RAM++ showcases 10.2 mAP and 15.4 mAP
enhancements over CLIP on OpenImages and ImageNet. For open-set categories
beyond predefined, RAM++ records improvements of 5 mAP and 6.4 mAP over CLIP
and RAM respectively on OpenImages. For diverse human-object interaction
phrases, RAM++ achieves 7.8 mAP and 4.7 mAP improvements on the HICO benchmark.
Code, datasets and pre-trained models are available at
https://github.com/xinyu1205/recognize-anything.