Recognize Anything: Ein leistungsstarkes Modell zur Bildbeschriftung
Recognize Anything: A Strong Image Tagging Model
June 6, 2023
Autoren: Youcai Zhang, Xinyu Huang, Jinyu Ma, Zhaoyang Li, Zhaochuan Luo, Yanchun Xie, Yuzhuo Qin, Tong Luo, Yaqian Li, Shilong Liu, Yandong Guo, Lei Zhang
cs.AI
Zusammenfassung
Wir präsentieren das Recognize Anything Model (RAM): ein leistungsstarkes Basismodell für die Bildkennzeichnung. RAM kann jede gängige Kategorie mit hoher Genauigkeit erkennen. RAM führt ein neues Paradigma für die Bildkennzeichnung ein, das groß angelegte Bild-Text-Paare für das Training nutzt, anstatt auf manuelle Annotationen zurückzugreifen. Die Entwicklung von RAM umfasst vier wesentliche Schritte. Zunächst werden annotierungsfreie Bildtags in großem Umfang durch automatische semantische Textanalyse gewonnen. Anschließend wird ein vorläufiges Modell für die automatische Annotation trainiert, indem die Aufgaben der Bildbeschreibung und der Kennzeichnung vereinheitlicht werden, wobei die ursprünglichen Texte und die analysierten Tags jeweils als Supervision dienen. Drittens wird eine Datenengine eingesetzt, um zusätzliche Annotationen zu generieren und fehlerhafte zu bereinigen. Schließlich wird das Modell mit den verarbeiteten Daten erneut trainiert und mit einem kleineren, aber qualitativ hochwertigeren Datensatz feinabgestimmt. Wir bewerten die Kennzeichnungsfähigkeiten von RAM anhand zahlreicher Benchmarks und beobachten beeindruckende Zero-Shot-Leistungen, die CLIP und BLIP deutlich übertreffen. Bemerkenswerterweise übertrifft RAM sogar vollständig überwachte Methoden und zeigt eine wettbewerbsfähige Leistung im Vergleich zur Google API. Wir veröffentlichen RAM unter https://recognize-anything.github.io/, um die Fortschritte großer Modelle in der Computer Vision zu fördern.
English
We present the Recognize Anything Model (RAM): a strong foundation model for
image tagging. RAM can recognize any common category with high accuracy. RAM
introduces a new paradigm for image tagging, leveraging large-scale image-text
pairs for training instead of manual annotations. The development of RAM
comprises four key steps. Firstly, annotation-free image tags are obtained at
scale through automatic text semantic parsing. Subsequently, a preliminary
model is trained for automatic annotation by unifying the caption and tagging
tasks, supervised by the original texts and parsed tags, respectively. Thirdly,
a data engine is employed to generate additional annotations and clean
incorrect ones. Lastly, the model is retrained with the processed data and
fine-tuned using a smaller but higher-quality dataset. We evaluate the tagging
capabilities of RAM on numerous benchmarks and observe impressive zero-shot
performance, significantly outperforming CLIP and BLIP. Remarkably, RAM even
surpasses the fully supervised manners and exhibits competitive performance
with the Google API. We are releasing the RAM at
https://recognize-anything.github.io/ to foster the advancements of large
models in computer vision.