Recognize Anything: Ein leistungsstarkes Modell zur Bildbeschriftung

Zusammenfassung

Wir präsentieren das Recognize Anything Model (RAM): ein leistungsstarkes Basismodell für die Bildkennzeichnung. RAM kann jede gängige Kategorie mit hoher Genauigkeit erkennen. RAM führt ein neues Paradigma für die Bildkennzeichnung ein, das groß angelegte Bild-Text-Paare für das Training nutzt, anstatt auf manuelle Annotationen zurückzugreifen. Die Entwicklung von RAM umfasst vier wesentliche Schritte. Zunächst werden annotierungsfreie Bildtags in großem Umfang durch automatische semantische Textanalyse gewonnen. Anschließend wird ein vorläufiges Modell für die automatische Annotation trainiert, indem die Aufgaben der Bildbeschreibung und der Kennzeichnung vereinheitlicht werden, wobei die ursprünglichen Texte und die analysierten Tags jeweils als Supervision dienen. Drittens wird eine Datenengine eingesetzt, um zusätzliche Annotationen zu generieren und fehlerhafte zu bereinigen. Schließlich wird das Modell mit den verarbeiteten Daten erneut trainiert und mit einem kleineren, aber qualitativ hochwertigeren Datensatz feinabgestimmt. Wir bewerten die Kennzeichnungsfähigkeiten von RAM anhand zahlreicher Benchmarks und beobachten beeindruckende Zero-Shot-Leistungen, die CLIP und BLIP deutlich übertreffen. Bemerkenswerterweise übertrifft RAM sogar vollständig überwachte Methoden und zeigt eine wettbewerbsfähige Leistung im Vergleich zur Google API. Wir veröffentlichen RAM unter https://recognize-anything.github.io/, um die Fortschritte großer Modelle in der Computer Vision zu fördern.

English

We present the Recognize Anything Model (RAM): a strong foundation model for image tagging. RAM can recognize any common category with high accuracy. RAM introduces a new paradigm for image tagging, leveraging large-scale image-text pairs for training instead of manual annotations. The development of RAM comprises four key steps. Firstly, annotation-free image tags are obtained at scale through automatic text semantic parsing. Subsequently, a preliminary model is trained for automatic annotation by unifying the caption and tagging tasks, supervised by the original texts and parsed tags, respectively. Thirdly, a data engine is employed to generate additional annotations and clean incorrect ones. Lastly, the model is retrained with the processed data and fine-tuned using a smaller but higher-quality dataset. We evaluate the tagging capabilities of RAM on numerous benchmarks and observe impressive zero-shot performance, significantly outperforming CLIP and BLIP. Remarkably, RAM even surpasses the fully supervised manners and exhibits competitive performance with the Google API. We are releasing the RAM at https://recognize-anything.github.io/ to foster the advancements of large models in computer vision.

Recognize Anything: Ein leistungsstarkes Modell zur Bildbeschriftung

Recognize Anything: A Strong Image Tagging Model

Zusammenfassung

Support