Herken Alles: Een Krachtig Model voor Afbeeldingstagging

Samenvatting

We presenteren het Recognize Anything Model (RAM): een robuust foundation model voor beeldtagging. RAM kan elke veelvoorkomende categorie met hoge nauwkeurigheid herkennen. RAM introduceert een nieuw paradigma voor beeldtagging door gebruik te maken van grootschalige beeld-tekstparen voor training in plaats van handmatige annotaties. De ontwikkeling van RAM bestaat uit vier belangrijke stappen. Ten eerste worden annotatievrije beeldtags op grote schaal verkregen via automatische tekstsemantische parsing. Vervolgens wordt een voorlopig model getraind voor automatische annotatie door de taken van bijschriften en tagging te verenigen, waarbij respectievelijk de originele teksten en geparste tags als supervisie dienen. Ten derde wordt een data-engine ingezet om aanvullende annotaties te genereren en onjuiste annotaties op te schonen. Tot slot wordt het model opnieuw getraind met de verwerkte data en afgestemd met behulp van een kleiner maar hoger kwalitatief dataset. We evalueren de taggingmogelijkheden van RAM op talrijke benchmarks en observeren indrukwekkende zero-shot prestaties, die CLIP en BLIP aanzienlijk overtreffen. Opmerkelijk is dat RAM zelfs de volledig gesuperviseerde methoden overstijgt en competitieve prestaties vertoont met de Google API. We maken RAM beschikbaar op https://recognize-anything.github.io/ om de vooruitgang van grote modellen in computervisie te bevorderen.

English

We present the Recognize Anything Model (RAM): a strong foundation model for image tagging. RAM can recognize any common category with high accuracy. RAM introduces a new paradigm for image tagging, leveraging large-scale image-text pairs for training instead of manual annotations. The development of RAM comprises four key steps. Firstly, annotation-free image tags are obtained at scale through automatic text semantic parsing. Subsequently, a preliminary model is trained for automatic annotation by unifying the caption and tagging tasks, supervised by the original texts and parsed tags, respectively. Thirdly, a data engine is employed to generate additional annotations and clean incorrect ones. Lastly, the model is retrained with the processed data and fine-tuned using a smaller but higher-quality dataset. We evaluate the tagging capabilities of RAM on numerous benchmarks and observe impressive zero-shot performance, significantly outperforming CLIP and BLIP. Remarkably, RAM even surpasses the fully supervised manners and exhibits competitive performance with the Google API. We are releasing the RAM at https://recognize-anything.github.io/ to foster the advancements of large models in computer vision.

Herken Alles: Een Krachtig Model voor Afbeeldingstagging

Recognize Anything: A Strong Image Tagging Model

Samenvatting

Support