Kein "Zero-Shot" ohne exponentielle Daten: Die Häufigkeit von Konzepten beim Pretraining bestimmt die Leistung von multimodalen Modellen.
No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance
April 4, 2024
Autoren: Vishaal Udandarao, Ameya Prabhu, Adhiraj Ghosh, Yash Sharma, Philip H. S. Torr, Adel Bibi, Samuel Albanie, Matthias Bethge
cs.AI
Zusammenfassung
Web-crawled Pretraining-Datensätze bilden die Grundlage für die beeindruckende "Zero-Shot"-Evaluationsleistung multimodaler Modelle wie CLIP für Klassifizierung/Abruf und Stable-Diffusion für die Bildgenerierung. Es ist jedoch unklar, wie sinnvoll der Begriff der "Zero-Shot"-Verallgemeinerung für solche multimodalen Modelle ist, da nicht bekannt ist, inwieweit ihre Pretraining-Datensätze die für die "Zero-Shot"-Evaluation anvisierten nachgelagerten Konzepte umfassen. In dieser Arbeit stellen wir die Frage: Wie wird die Leistung multimodaler Modelle bei nachgelagerten Konzepten durch die Häufigkeit dieser Konzepte in ihren Pretraining-Datensätzen beeinflusst? Wir untersuchen diese Frage umfassend über 34 Modelle und fünf Standard-Pretraining-Datensätze (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics) und generieren über 300 GB an Datenartefakten. Wir stellen konsequent fest, dass multimodale Modelle keineswegs "Zero-Shot"-Verallgemeinerung aufweisen, sondern exponentiell mehr Daten benötigen, um lineare Verbesserungen in der nachgelagerten "Zero-Shot"-Leistung zu erzielen, wobei ein sample-ineffizienter log-linearer Skalierungstrend befolgt wird. Dieser Trend besteht auch dann fort, wenn die Ähnlichkeit auf der Sample-Ebene zwischen Pretraining- und nachgelagerten Datensätzen kontrolliert wird und Tests auf rein synthetischen Datenverteilungen durchgeführt werden. Darüber hinaus zeigen wir bei der Benchmarking-Prüfung von Modellen anhand von langschwänzigen Daten, die auf unserer Analyse basieren, dass multimodale Modelle insgesamt schlecht abschneiden. Wir stellen diesen Long-Tail-Testdatensatz als Benchmark "Let it Wag!" zur weiteren Forschung in diese Richtung vor. Zusammenfassend zeigt unsere Studie einen exponentiellen Bedarf an Trainingsdaten auf, was darauf hindeutet, dass der Schlüssel zu den Verallgemeinerungsfähigkeiten im "Zero-Shot"-Modus unter groß angelegten Trainingsparadigmen noch gefunden werden muss.
English
Web-crawled pretraining datasets underlie the impressive "zero-shot"
evaluation performance of multimodal models, such as CLIP for
classification/retrieval and Stable-Diffusion for image generation. However, it
is unclear how meaningful the notion of "zero-shot" generalization is for such
multimodal models, as it is not known to what extent their pretraining datasets
encompass the downstream concepts targeted for during "zero-shot" evaluation.
In this work, we ask: How is the performance of multimodal models on downstream
concepts influenced by the frequency of these concepts in their pretraining
datasets? We comprehensively investigate this question across 34 models and
five standard pretraining datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M,
LAION-Aesthetics), generating over 300GB of data artifacts. We consistently
find that, far from exhibiting "zero-shot" generalization, multimodal models
require exponentially more data to achieve linear improvements in downstream
"zero-shot" performance, following a sample inefficient log-linear scaling
trend. This trend persists even when controlling for sample-level similarity
between pretraining and downstream datasets, and testing on purely synthetic
data distributions. Furthermore, upon benchmarking models on long-tailed data
sampled based on our analysis, we demonstrate that multimodal models across the
board perform poorly. We contribute this long-tail test set as the "Let it
Wag!" benchmark to further research in this direction. Taken together, our
study reveals an exponential need for training data which implies that the key
to "zero-shot" generalization capabilities under large-scale training paradigms
remains to be found.Summary
AI-Generated Summary