Reconhecer Tudo: Um Modelo Robusto de Etiquetagem de Imagens
Recognize Anything: A Strong Image Tagging Model
June 6, 2023
Autores: Youcai Zhang, Xinyu Huang, Jinyu Ma, Zhaoyang Li, Zhaochuan Luo, Yanchun Xie, Yuzhuo Qin, Tong Luo, Yaqian Li, Shilong Liu, Yandong Guo, Lei Zhang
cs.AI
Resumo
Apresentamos o Recognize Anything Model (RAM): um modelo base robusto para
etiquetagem de imagens. O RAM é capaz de reconhecer qualquer categoria comum
com alta precisão. O RAM introduz um novo paradigma para etiquetagem de
imagens, aproveitando pares de imagem-texto em grande escala para treinamento,
em vez de anotações manuais. O desenvolvimento do RAM compreende quatro etapas
principais. Primeiramente, etiquetas de imagem sem anotações são obtidas em
escala por meio de análise semântica automática de texto. Em seguida, um modelo
preliminar é treinado para anotação automática, unificando as tarefas de
legenda e etiquetagem, supervisionado pelos textos originais e pelas etiquetas
analisadas, respectivamente. Em terceiro lugar, um mecanismo de dados é
empregado para gerar anotações adicionais e limpar as incorretas. Por fim, o
modelo é retreinado com os dados processados e ajustado usando um conjunto de
dados menor, porém de maior qualidade. Avaliamos as capacidades de etiquetagem
do RAM em diversos benchmarks e observamos um desempenho impressionante em
zero-shot, superando significativamente o CLIP e o BLIP. Notavelmente, o RAM
até supera os métodos totalmente supervisionados e exibe desempenho competitivo
com a API do Google. Estamos disponibilizando o RAM em
https://recognize-anything.github.io/ para promover os avanços de grandes
modelos em visão computacional.
English
We present the Recognize Anything Model (RAM): a strong foundation model for
image tagging. RAM can recognize any common category with high accuracy. RAM
introduces a new paradigm for image tagging, leveraging large-scale image-text
pairs for training instead of manual annotations. The development of RAM
comprises four key steps. Firstly, annotation-free image tags are obtained at
scale through automatic text semantic parsing. Subsequently, a preliminary
model is trained for automatic annotation by unifying the caption and tagging
tasks, supervised by the original texts and parsed tags, respectively. Thirdly,
a data engine is employed to generate additional annotations and clean
incorrect ones. Lastly, the model is retrained with the processed data and
fine-tuned using a smaller but higher-quality dataset. We evaluate the tagging
capabilities of RAM on numerous benchmarks and observe impressive zero-shot
performance, significantly outperforming CLIP and BLIP. Remarkably, RAM even
surpasses the fully supervised manners and exhibits competitive performance
with the Google API. We are releasing the RAM at
https://recognize-anything.github.io/ to foster the advancements of large
models in computer vision.