ChatPaper.aiChatPaper

Riconosci Qualsiasi Cosa: Un Modello Potente per l'Assegnazione di Tag alle Immagini

Recognize Anything: A Strong Image Tagging Model

June 6, 2023
Autori: Youcai Zhang, Xinyu Huang, Jinyu Ma, Zhaoyang Li, Zhaochuan Luo, Yanchun Xie, Yuzhuo Qin, Tong Luo, Yaqian Li, Shilong Liu, Yandong Guo, Lei Zhang
cs.AI

Abstract

Presentiamo il Recognize Anything Model (RAM): un modello di base solido per l'assegnazione di tag alle immagini. RAM è in grado di riconoscere qualsiasi categoria comune con elevata precisione. RAM introduce un nuovo paradigma per l'assegnazione di tag alle immagini, sfruttando coppie immagine-testo su larga scala per l'addestramento anziché annotazioni manuali. Lo sviluppo di RAM comprende quattro passaggi chiave. In primo luogo, i tag per le immagini senza annotazioni vengono ottenuti su larga scala attraverso l'analisi semantica automatica del testo. Successivamente, un modello preliminare viene addestrato per l'annotazione automatica unificando i compiti di descrizione e assegnazione di tag, supervisionati rispettivamente dai testi originali e dai tag analizzati. In terzo luogo, un motore di dati viene impiegato per generare annotazioni aggiuntive e pulire quelle errate. Infine, il modello viene riaddestrato con i dati elaborati e affinato utilizzando un dataset più piccolo ma di qualità superiore. Valutiamo le capacità di assegnazione di tag di RAM su numerosi benchmark e osserviamo prestazioni zero-shot impressionanti, superando significativamente CLIP e BLIP. Notevolmente, RAM supera persino i metodi completamente supervisionati e mostra prestazioni competitive con l'API di Google. Stiamo rilasciando RAM all'indirizzo https://recognize-anything.github.io/ per favorire i progressi dei modelli di grandi dimensioni nel campo della visione artificiale.
English
We present the Recognize Anything Model (RAM): a strong foundation model for image tagging. RAM can recognize any common category with high accuracy. RAM introduces a new paradigm for image tagging, leveraging large-scale image-text pairs for training instead of manual annotations. The development of RAM comprises four key steps. Firstly, annotation-free image tags are obtained at scale through automatic text semantic parsing. Subsequently, a preliminary model is trained for automatic annotation by unifying the caption and tagging tasks, supervised by the original texts and parsed tags, respectively. Thirdly, a data engine is employed to generate additional annotations and clean incorrect ones. Lastly, the model is retrained with the processed data and fine-tuned using a smaller but higher-quality dataset. We evaluate the tagging capabilities of RAM on numerous benchmarks and observe impressive zero-shot performance, significantly outperforming CLIP and BLIP. Remarkably, RAM even surpasses the fully supervised manners and exhibits competitive performance with the Google API. We are releasing the RAM at https://recognize-anything.github.io/ to foster the advancements of large models in computer vision.
PDF116December 15, 2024