ChatPaper.aiChatPaper

Reconoce Todo: Un Modelo Potente de Etiquetado de Imágenes

Recognize Anything: A Strong Image Tagging Model

June 6, 2023
Autores: Youcai Zhang, Xinyu Huang, Jinyu Ma, Zhaoyang Li, Zhaochuan Luo, Yanchun Xie, Yuzhuo Qin, Tong Luo, Yaqian Li, Shilong Liu, Yandong Guo, Lei Zhang
cs.AI

Resumen

Presentamos el Modelo Reconocer Cualquier Cosa (RAM, por sus siglas en inglés): un modelo base robusto para etiquetado de imágenes. RAM puede reconocer cualquier categoría común con alta precisión. RAM introduce un nuevo paradigma para el etiquetado de imágenes, aprovechando pares de imagen-texto a gran escala para el entrenamiento en lugar de anotaciones manuales. El desarrollo de RAM comprende cuatro pasos clave. En primer lugar, se obtienen etiquetas de imágenes sin anotaciones a gran escala mediante análisis semántico automático de texto. Posteriormente, se entrena un modelo preliminar para anotación automática unificando las tareas de descripción y etiquetado, supervisado por los textos originales y las etiquetas analizadas, respectivamente. En tercer lugar, se emplea un motor de datos para generar anotaciones adicionales y limpiar las incorrectas. Por último, el modelo se reentrena con los datos procesados y se ajusta utilizando un conjunto de datos más pequeño pero de mayor calidad. Evaluamos las capacidades de etiquetado de RAM en numerosos benchmarks y observamos un rendimiento impresionante en zero-shot, superando significativamente a CLIP y BLIP. Notablemente, RAM incluso supera los enfoques completamente supervisados y muestra un rendimiento competitivo con la API de Google. Estamos liberando RAM en https://recognize-anything.github.io/ para fomentar los avances de los modelos grandes en visión por computadora.
English
We present the Recognize Anything Model (RAM): a strong foundation model for image tagging. RAM can recognize any common category with high accuracy. RAM introduces a new paradigm for image tagging, leveraging large-scale image-text pairs for training instead of manual annotations. The development of RAM comprises four key steps. Firstly, annotation-free image tags are obtained at scale through automatic text semantic parsing. Subsequently, a preliminary model is trained for automatic annotation by unifying the caption and tagging tasks, supervised by the original texts and parsed tags, respectively. Thirdly, a data engine is employed to generate additional annotations and clean incorrect ones. Lastly, the model is retrained with the processed data and fine-tuned using a smaller but higher-quality dataset. We evaluate the tagging capabilities of RAM on numerous benchmarks and observe impressive zero-shot performance, significantly outperforming CLIP and BLIP. Remarkably, RAM even surpasses the fully supervised manners and exhibits competitive performance with the Google API. We are releasing the RAM at https://recognize-anything.github.io/ to foster the advancements of large models in computer vision.
PDF116December 15, 2024