Riconosci Qualsiasi Cosa: Un Modello Potente per l'Assegnazione di Tag alle Immagini

Abstract

Presentiamo il Recognize Anything Model (RAM): un modello di base solido per l'assegnazione di tag alle immagini. RAM è in grado di riconoscere qualsiasi categoria comune con elevata precisione. RAM introduce un nuovo paradigma per l'assegnazione di tag alle immagini, sfruttando coppie immagine-testo su larga scala per l'addestramento anziché annotazioni manuali. Lo sviluppo di RAM comprende quattro passaggi chiave. In primo luogo, i tag per le immagini senza annotazioni vengono ottenuti su larga scala attraverso l'analisi semantica automatica del testo. Successivamente, un modello preliminare viene addestrato per l'annotazione automatica unificando i compiti di descrizione e assegnazione di tag, supervisionati rispettivamente dai testi originali e dai tag analizzati. In terzo luogo, un motore di dati viene impiegato per generare annotazioni aggiuntive e pulire quelle errate. Infine, il modello viene riaddestrato con i dati elaborati e affinato utilizzando un dataset più piccolo ma di qualità superiore. Valutiamo le capacità di assegnazione di tag di RAM su numerosi benchmark e osserviamo prestazioni zero-shot impressionanti, superando significativamente CLIP e BLIP. Notevolmente, RAM supera persino i metodi completamente supervisionati e mostra prestazioni competitive con l'API di Google. Stiamo rilasciando RAM all'indirizzo https://recognize-anything.github.io/ per favorire i progressi dei modelli di grandi dimensioni nel campo della visione artificiale.

English

We present the Recognize Anything Model (RAM): a strong foundation model for image tagging. RAM can recognize any common category with high accuracy. RAM introduces a new paradigm for image tagging, leveraging large-scale image-text pairs for training instead of manual annotations. The development of RAM comprises four key steps. Firstly, annotation-free image tags are obtained at scale through automatic text semantic parsing. Subsequently, a preliminary model is trained for automatic annotation by unifying the caption and tagging tasks, supervised by the original texts and parsed tags, respectively. Thirdly, a data engine is employed to generate additional annotations and clean incorrect ones. Lastly, the model is retrained with the processed data and fine-tuned using a smaller but higher-quality dataset. We evaluate the tagging capabilities of RAM on numerous benchmarks and observe impressive zero-shot performance, significantly outperforming CLIP and BLIP. Remarkably, RAM even surpasses the fully supervised manners and exhibits competitive performance with the Google API. We are releasing the RAM at https://recognize-anything.github.io/ to foster the advancements of large models in computer vision.

Riconosci Qualsiasi Cosa: Un Modello Potente per l'Assegnazione di Tag alle Immagini

Recognize Anything: A Strong Image Tagging Model

Abstract

Support