Injetar Conceitos Semânticos na Etiquetagem de Imagens para Reconhecimento em Conjunto Aberto

Resumo

Neste artigo, apresentamos o Recognize Anything Plus Model (RAM++), um modelo fundamental de reconhecimento de imagem com fortes capacidades de reconhecimento em conjunto aberto, ao injetar conceitos semânticos no framework de treinamento de etiquetagem de imagens. Abordagens anteriores são modelos de etiquetagem de imagens limitados por semântica restrita ou modelos de visão-linguagem com interação superficial, resultando em desempenho subótimo no reconhecimento de múltiplas etiquetas. Em contraste, o RAM++ integra alinhamento imagem-texto e etiquetagem de imagens dentro de um framework unificado de interação refinada baseado em triplas imagem-etiqueta-texto. Esse design permite que o RAM++ não apenas se destaque na identificação de categorias predefinidas, mas também aumente significativamente a capacidade de reconhecimento em categorias de conjunto aberto. Além disso, o RAM++ emprega grandes modelos de linguagem (LLMs) para gerar descrições visuais de etiquetas diversas, pioneiro na integração do conhecimento de LLMs no treinamento de etiquetagem de imagens. Essa abordagem capacita o RAM++ a integrar conceitos de descrição visual para reconhecimento em conjunto aberto durante a inferência. Avaliações em benchmarks abrangentes de reconhecimento de imagem demonstram que o RAM++ supera os modelos fundamentais de reconhecimento de imagem state-of-the-art (SOTA) na maioria dos aspectos. Especificamente, para categorias de etiquetas comuns predefinidas, o RAM++ apresenta melhorias de 10,2 mAP e 15,4 mAP sobre o CLIP em OpenImages e ImageNet. Para categorias de conjunto aberto além das predefinidas, o RAM++ registra melhorias de 5 mAP e 6,4 mAP sobre o CLIP e o RAM, respectivamente, em OpenImages. Para frases diversas de interação humano-objeto, o RAM++ alcança melhorias de 7,8 mAP e 4,7 mAP no benchmark HICO. Código, datasets e modelos pré-treinados estão disponíveis em https://github.com/xinyu1205/recognize-anything.

English

In this paper, we introduce the Recognize Anything Plus Model~(RAM++), a fundamental image recognition model with strong open-set recognition capabilities, by injecting semantic concepts into image tagging training framework. Previous approaches are either image tagging models constrained by limited semantics, or vision-language models with shallow interaction for suboptimal performance in multi-tag recognition. In contrast, RAM++ integrates image-text alignment and image-tagging within a unified fine-grained interaction framework based on image-tags-text triplets. This design enables RAM++ not only excel in identifying predefined categories, but also significantly augment the recognition ability in open-set categories. Moreover, RAM++ employs large language models~(LLMs) to generate diverse visual tag descriptions, pioneering the integration of LLM's knowledge into image tagging training. This approach empowers RAM++ to integrate visual description concepts for open-set recognition during inference. Evaluations on comprehensive image recognition benchmarks demonstrate RAM++ exceeds existing state-of-the-art (SOTA) fundamental image recognition models on most aspects. Specifically, for predefined common-used tag categories, RAM++ showcases 10.2 mAP and 15.4 mAP enhancements over CLIP on OpenImages and ImageNet. For open-set categories beyond predefined, RAM++ records improvements of 5 mAP and 6.4 mAP over CLIP and RAM respectively on OpenImages. For diverse human-object interaction phrases, RAM++ achieves 7.8 mAP and 4.7 mAP improvements on the HICO benchmark. Code, datasets and pre-trained models are available at https://github.com/xinyu1205/recognize-anything.

Injetar Conceitos Semânticos na Etiquetagem de Imagens para Reconhecimento em Conjunto Aberto

Inject Semantic Concepts into Image Tagging for Open-Set Recognition

Resumo

Support