ChatPaper.aiChatPaper

Inyectar Conceptos Semánticos en el Etiquetado de Imágenes para el Reconocimiento de Conjuntos Abiertos

Inject Semantic Concepts into Image Tagging for Open-Set Recognition

October 23, 2023
Autores: Xinyu Huang, Yi-Jie Huang, Youcai Zhang, Weiwei Tian, Rui Feng, Yuejie Zhang, Yanchun Xie, Yaqian Li, Lei Zhang
cs.AI

Resumen

En este artículo, presentamos el Modelo Recognize Anything Plus (RAM++), un modelo fundamental de reconocimiento de imágenes con capacidades sólidas de reconocimiento en conjuntos abiertos, mediante la inyección de conceptos semánticos en el marco de entrenamiento de etiquetado de imágenes. Los enfoques anteriores son modelos de etiquetado de imágenes limitados por semánticas restringidas, o modelos de visión-lenguaje con interacciones superficiales que resultan en un rendimiento subóptimo en el reconocimiento de múltiples etiquetas. En contraste, RAM++ integra la alineación imagen-texto y el etiquetado de imágenes dentro de un marco unificado de interacción detallada basado en tripletes imagen-etiquetas-texto. Este diseño permite que RAM++ no solo sobresalga en la identificación de categorías predefinidas, sino que también aumente significativamente la capacidad de reconocimiento en categorías de conjuntos abiertos. Además, RAM++ emplea modelos de lenguaje grandes (LLMs) para generar descripciones visuales de etiquetas diversas, siendo pionero en la integración del conocimiento de los LLMs en el entrenamiento de etiquetado de imágenes. Este enfoque capacita a RAM++ para integrar conceptos de descripción visual en el reconocimiento de conjuntos abiertos durante la inferencia. Las evaluaciones en benchmarks exhaustivos de reconocimiento de imágenes demuestran que RAM++ supera a los modelos fundamentales de reconocimiento de imágenes más avanzados (SOTA) en la mayoría de los aspectos. Específicamente, para categorías de etiquetas predefinidas de uso común, RAM++ muestra mejoras de 10.2 mAP y 15.4 mAP sobre CLIP en OpenImages e ImageNet. Para categorías de conjuntos abiertos más allá de las predefinidas, RAM++ registra mejoras de 5 mAP y 6.4 mAP sobre CLIP y RAM respectivamente en OpenImages. Para frases diversas de interacción humano-objeto, RAM++ logra mejoras de 7.8 mAP y 4.7 mAP en el benchmark HICO. El código, conjuntos de datos y modelos preentrenados están disponibles en https://github.com/xinyu1205/recognize-anything.
English
In this paper, we introduce the Recognize Anything Plus Model~(RAM++), a fundamental image recognition model with strong open-set recognition capabilities, by injecting semantic concepts into image tagging training framework. Previous approaches are either image tagging models constrained by limited semantics, or vision-language models with shallow interaction for suboptimal performance in multi-tag recognition. In contrast, RAM++ integrates image-text alignment and image-tagging within a unified fine-grained interaction framework based on image-tags-text triplets. This design enables RAM++ not only excel in identifying predefined categories, but also significantly augment the recognition ability in open-set categories. Moreover, RAM++ employs large language models~(LLMs) to generate diverse visual tag descriptions, pioneering the integration of LLM's knowledge into image tagging training. This approach empowers RAM++ to integrate visual description concepts for open-set recognition during inference. Evaluations on comprehensive image recognition benchmarks demonstrate RAM++ exceeds existing state-of-the-art (SOTA) fundamental image recognition models on most aspects. Specifically, for predefined common-used tag categories, RAM++ showcases 10.2 mAP and 15.4 mAP enhancements over CLIP on OpenImages and ImageNet. For open-set categories beyond predefined, RAM++ records improvements of 5 mAP and 6.4 mAP over CLIP and RAM respectively on OpenImages. For diverse human-object interaction phrases, RAM++ achieves 7.8 mAP and 4.7 mAP improvements on the HICO benchmark. Code, datasets and pre-trained models are available at https://github.com/xinyu1205/recognize-anything.
PDF61December 15, 2024