Reconoce Todo: Un Modelo Potente de Etiquetado de Imágenes

Resumen

Presentamos el Modelo Reconocer Cualquier Cosa (RAM, por sus siglas en inglés): un modelo base robusto para etiquetado de imágenes. RAM puede reconocer cualquier categoría común con alta precisión. RAM introduce un nuevo paradigma para el etiquetado de imágenes, aprovechando pares de imagen-texto a gran escala para el entrenamiento en lugar de anotaciones manuales. El desarrollo de RAM comprende cuatro pasos clave. En primer lugar, se obtienen etiquetas de imágenes sin anotaciones a gran escala mediante análisis semántico automático de texto. Posteriormente, se entrena un modelo preliminar para anotación automática unificando las tareas de descripción y etiquetado, supervisado por los textos originales y las etiquetas analizadas, respectivamente. En tercer lugar, se emplea un motor de datos para generar anotaciones adicionales y limpiar las incorrectas. Por último, el modelo se reentrena con los datos procesados y se ajusta utilizando un conjunto de datos más pequeño pero de mayor calidad. Evaluamos las capacidades de etiquetado de RAM en numerosos benchmarks y observamos un rendimiento impresionante en zero-shot, superando significativamente a CLIP y BLIP. Notablemente, RAM incluso supera los enfoques completamente supervisados y muestra un rendimiento competitivo con la API de Google. Estamos liberando RAM en https://recognize-anything.github.io/ para fomentar los avances de los modelos grandes en visión por computadora.

English

We present the Recognize Anything Model (RAM): a strong foundation model for image tagging. RAM can recognize any common category with high accuracy. RAM introduces a new paradigm for image tagging, leveraging large-scale image-text pairs for training instead of manual annotations. The development of RAM comprises four key steps. Firstly, annotation-free image tags are obtained at scale through automatic text semantic parsing. Subsequently, a preliminary model is trained for automatic annotation by unifying the caption and tagging tasks, supervised by the original texts and parsed tags, respectively. Thirdly, a data engine is employed to generate additional annotations and clean incorrect ones. Lastly, the model is retrained with the processed data and fine-tuned using a smaller but higher-quality dataset. We evaluate the tagging capabilities of RAM on numerous benchmarks and observe impressive zero-shot performance, significantly outperforming CLIP and BLIP. Remarkably, RAM even surpasses the fully supervised manners and exhibits competitive performance with the Google API. We are releasing the RAM at https://recognize-anything.github.io/ to foster the advancements of large models in computer vision.

Reconoce Todo: Un Modelo Potente de Etiquetado de Imágenes

Recognize Anything: A Strong Image Tagging Model

Resumen

Support