Reconnaître Tout : Un Modèle Puissant d'Étiquetage d'Images

Résumé

Nous présentons le Recognize Anything Model (RAM) : un modèle de base robuste pour l'étiquetage d'images. RAM est capable de reconnaître avec une grande précision toute catégorie commune. RAM introduit un nouveau paradigme pour l'étiquetage d'images, en exploitant des paires image-texte à grande échelle pour l'entraînement, plutôt que des annotations manuelles. Le développement de RAM comprend quatre étapes clés. Premièrement, des étiquettes d'images sans annotation sont obtenues à grande échelle grâce à l'analyse sémantique automatique de texte. Ensuite, un modèle préliminaire est entraîné pour l'annotation automatique en unifiant les tâches de légende et d'étiquetage, supervisées respectivement par les textes originaux et les étiquettes analysées. Troisièmement, un moteur de données est utilisé pour générer des annotations supplémentaires et nettoyer celles qui sont incorrectes. Enfin, le modèle est réentraîné avec les données traitées et affiné à l'aide d'un ensemble de données plus petit mais de meilleure qualité. Nous évaluons les capacités d'étiquetage de RAM sur de nombreux benchmarks et observons des performances impressionnantes en zero-shot, surpassant significativement CLIP et BLIP. De manière remarquable, RAM dépasse même les méthodes entièrement supervisées et montre des performances compétitives avec l'API Google. Nous mettons RAM à disposition sur https://recognize-anything.github.io/ pour favoriser les avancées des grands modèles en vision par ordinateur.

English

We present the Recognize Anything Model (RAM): a strong foundation model for image tagging. RAM can recognize any common category with high accuracy. RAM introduces a new paradigm for image tagging, leveraging large-scale image-text pairs for training instead of manual annotations. The development of RAM comprises four key steps. Firstly, annotation-free image tags are obtained at scale through automatic text semantic parsing. Subsequently, a preliminary model is trained for automatic annotation by unifying the caption and tagging tasks, supervised by the original texts and parsed tags, respectively. Thirdly, a data engine is employed to generate additional annotations and clean incorrect ones. Lastly, the model is retrained with the processed data and fine-tuned using a smaller but higher-quality dataset. We evaluate the tagging capabilities of RAM on numerous benchmarks and observe impressive zero-shot performance, significantly outperforming CLIP and BLIP. Remarkably, RAM even surpasses the fully supervised manners and exhibits competitive performance with the Google API. We are releasing the RAM at https://recognize-anything.github.io/ to foster the advancements of large models in computer vision.

Reconnaître Tout : Un Modèle Puissant d'Étiquetage d'Images

Recognize Anything: A Strong Image Tagging Model

Résumé

Support