Reconhecer Tudo: Um Modelo Robusto de Etiquetagem de Imagens

Resumo

Apresentamos o Recognize Anything Model (RAM): um modelo base robusto para etiquetagem de imagens. O RAM é capaz de reconhecer qualquer categoria comum com alta precisão. O RAM introduz um novo paradigma para etiquetagem de imagens, aproveitando pares de imagem-texto em grande escala para treinamento, em vez de anotações manuais. O desenvolvimento do RAM compreende quatro etapas principais. Primeiramente, etiquetas de imagem sem anotações são obtidas em escala por meio de análise semântica automática de texto. Em seguida, um modelo preliminar é treinado para anotação automática, unificando as tarefas de legenda e etiquetagem, supervisionado pelos textos originais e pelas etiquetas analisadas, respectivamente. Em terceiro lugar, um mecanismo de dados é empregado para gerar anotações adicionais e limpar as incorretas. Por fim, o modelo é retreinado com os dados processados e ajustado usando um conjunto de dados menor, porém de maior qualidade. Avaliamos as capacidades de etiquetagem do RAM em diversos benchmarks e observamos um desempenho impressionante em zero-shot, superando significativamente o CLIP e o BLIP. Notavelmente, o RAM até supera os métodos totalmente supervisionados e exibe desempenho competitivo com a API do Google. Estamos disponibilizando o RAM em https://recognize-anything.github.io/ para promover os avanços de grandes modelos em visão computacional.

English

We present the Recognize Anything Model (RAM): a strong foundation model for image tagging. RAM can recognize any common category with high accuracy. RAM introduces a new paradigm for image tagging, leveraging large-scale image-text pairs for training instead of manual annotations. The development of RAM comprises four key steps. Firstly, annotation-free image tags are obtained at scale through automatic text semantic parsing. Subsequently, a preliminary model is trained for automatic annotation by unifying the caption and tagging tasks, supervised by the original texts and parsed tags, respectively. Thirdly, a data engine is employed to generate additional annotations and clean incorrect ones. Lastly, the model is retrained with the processed data and fine-tuned using a smaller but higher-quality dataset. We evaluate the tagging capabilities of RAM on numerous benchmarks and observe impressive zero-shot performance, significantly outperforming CLIP and BLIP. Remarkably, RAM even surpasses the fully supervised manners and exhibits competitive performance with the Google API. We are releasing the RAM at https://recognize-anything.github.io/ to foster the advancements of large models in computer vision.

Reconhecer Tudo: Um Modelo Robusto de Etiquetagem de Imagens

Recognize Anything: A Strong Image Tagging Model

Resumo

Support