Entmystifizierung der CLIP-Daten
Demystifying CLIP Data
September 28, 2023
papers.authors: Hu Xu, Saining Xie, Xiaoqing Ellen Tan, Po-Yao Huang, Russell Howes, Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer
cs.AI
papers.abstract
Contrastive Language-Image Pre-training (CLIP) ist ein Ansatz, der die Forschung und Anwendungen in der Computer Vision vorangetrieben hat und moderne Erkennungssysteme sowie generative Modelle beflügelt hat. Wir glauben, dass der Hauptfaktor für den Erfolg von CLIP seine Daten und nicht die Modellarchitektur oder das Vortrainingsziel sind. Allerdings liefert CLIP nur sehr begrenzte Informationen über seine Daten und deren Sammlung, was zu Arbeiten geführt hat, die darauf abzielen, CLIPs Daten durch Filterung mit seinen Modellparametern zu reproduzieren. In dieser Arbeit beabsichtigen wir, den Ansatz zur Datenkuratierung von CLIP aufzudecken und im Bestreben, ihn der Gemeinschaft zugänglich zu machen, Metadata-Curated Language-Image Pre-training (MetaCLIP) einzuführen. MetaCLIP nimmt einen Rohdatenpool und Metadaten (abgeleitet aus CLIPs Konzepten) und erzeugt eine ausgewogene Teilmenge über die Metadatenverteilung. Unsere experimentelle Studie isoliert rigoros das Modell und die Trainingsbedingungen und konzentriert sich ausschließlich auf die Daten. MetaCLIP, angewendet auf CommonCrawl mit 400 Millionen Bild-Text-Datenpaaren, übertrifft CLIPs Daten in mehreren Standardbenchmarks. Bei der Zero-Shot-Klassifikation auf ImageNet erreicht MetaCLIP eine Genauigkeit von 70,8 % und übertrifft damit CLIPs 68,3 % auf ViT-B-Modellen. Bei einer Skalierung auf 1 Milliarde Daten, bei gleichem Trainingsbudget, wird eine Genauigkeit von 72,4 % erreicht. Unsere Beobachtungen gelten über verschiedene Modellgrößen hinweg, was durch ViT-H, das 80,5 % erreicht, ohne jegliche zusätzlichen Optimierungen, veranschaulicht wird. Der Kuratierungscode und die Verteilung der Trainingsdaten auf Metadaten sind unter https://github.com/facebookresearch/MetaCLIP verfügbar.
English
Contrastive Language-Image Pre-training (CLIP) is an approach that has
advanced research and applications in computer vision, fueling modern
recognition systems and generative models. We believe that the main ingredient
to the success of CLIP is its data and not the model architecture or
pre-training objective. However, CLIP only provides very limited information
about its data and how it has been collected, leading to works that aim to
reproduce CLIP's data by filtering with its model parameters. In this work, we
intend to reveal CLIP's data curation approach and in our pursuit of making it
open to the community introduce Metadata-Curated Language-Image Pre-training
(MetaCLIP). MetaCLIP takes a raw data pool and metadata (derived from CLIP's
concepts) and yields a balanced subset over the metadata distribution. Our
experimental study rigorously isolates the model and training settings,
concentrating solely on data. MetaCLIP applied to CommonCrawl with 400M
image-text data pairs outperforms CLIP's data on multiple standard benchmarks.
In zero-shot ImageNet classification, MetaCLIP achieves 70.8% accuracy,
surpassing CLIP's 68.3% on ViT-B models. Scaling to 1B data, while maintaining
the same training budget, attains 72.4%. Our observations hold across various
model sizes, exemplified by ViT-H achieving 80.5%, without any
bells-and-whistles. Curation code and training data distribution on metadata is
made available at https://github.com/facebookresearch/MetaCLIP.