Reconnaître Tout : Un Modèle Puissant d'Étiquetage d'Images
Recognize Anything: A Strong Image Tagging Model
June 6, 2023
Auteurs: Youcai Zhang, Xinyu Huang, Jinyu Ma, Zhaoyang Li, Zhaochuan Luo, Yanchun Xie, Yuzhuo Qin, Tong Luo, Yaqian Li, Shilong Liu, Yandong Guo, Lei Zhang
cs.AI
Résumé
Nous présentons le Recognize Anything Model (RAM) : un modèle de base robuste pour l'étiquetage d'images. RAM est capable de reconnaître avec une grande précision toute catégorie commune. RAM introduit un nouveau paradigme pour l'étiquetage d'images, en exploitant des paires image-texte à grande échelle pour l'entraînement, plutôt que des annotations manuelles. Le développement de RAM comprend quatre étapes clés. Premièrement, des étiquettes d'images sans annotation sont obtenues à grande échelle grâce à l'analyse sémantique automatique de texte. Ensuite, un modèle préliminaire est entraîné pour l'annotation automatique en unifiant les tâches de légende et d'étiquetage, supervisées respectivement par les textes originaux et les étiquettes analysées. Troisièmement, un moteur de données est utilisé pour générer des annotations supplémentaires et nettoyer celles qui sont incorrectes. Enfin, le modèle est réentraîné avec les données traitées et affiné à l'aide d'un ensemble de données plus petit mais de meilleure qualité. Nous évaluons les capacités d'étiquetage de RAM sur de nombreux benchmarks et observons des performances impressionnantes en zero-shot, surpassant significativement CLIP et BLIP. De manière remarquable, RAM dépasse même les méthodes entièrement supervisées et montre des performances compétitives avec l'API Google. Nous mettons RAM à disposition sur https://recognize-anything.github.io/ pour favoriser les avancées des grands modèles en vision par ordinateur.
English
We present the Recognize Anything Model (RAM): a strong foundation model for
image tagging. RAM can recognize any common category with high accuracy. RAM
introduces a new paradigm for image tagging, leveraging large-scale image-text
pairs for training instead of manual annotations. The development of RAM
comprises four key steps. Firstly, annotation-free image tags are obtained at
scale through automatic text semantic parsing. Subsequently, a preliminary
model is trained for automatic annotation by unifying the caption and tagging
tasks, supervised by the original texts and parsed tags, respectively. Thirdly,
a data engine is employed to generate additional annotations and clean
incorrect ones. Lastly, the model is retrained with the processed data and
fine-tuned using a smaller but higher-quality dataset. We evaluate the tagging
capabilities of RAM on numerous benchmarks and observe impressive zero-shot
performance, significantly outperforming CLIP and BLIP. Remarkably, RAM even
surpasses the fully supervised manners and exhibits competitive performance
with the Google API. We are releasing the RAM at
https://recognize-anything.github.io/ to foster the advancements of large
models in computer vision.