Kein "Zero-Shot" ohne exponentielle Daten: Die Häufigkeit von Konzepten beim Pretraining bestimmt die Leistung von multimodalen Modellen.

papers.abstract

Web-crawled Pretraining-Datensätze bilden die Grundlage für die beeindruckende "Zero-Shot"-Evaluationsleistung multimodaler Modelle wie CLIP für Klassifizierung/Abruf und Stable-Diffusion für die Bildgenerierung. Es ist jedoch unklar, wie sinnvoll der Begriff der "Zero-Shot"-Verallgemeinerung für solche multimodalen Modelle ist, da nicht bekannt ist, inwieweit ihre Pretraining-Datensätze die für die "Zero-Shot"-Evaluation anvisierten nachgelagerten Konzepte umfassen. In dieser Arbeit stellen wir die Frage: Wie wird die Leistung multimodaler Modelle bei nachgelagerten Konzepten durch die Häufigkeit dieser Konzepte in ihren Pretraining-Datensätzen beeinflusst? Wir untersuchen diese Frage umfassend über 34 Modelle und fünf Standard-Pretraining-Datensätze (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics) und generieren über 300 GB an Datenartefakten. Wir stellen konsequent fest, dass multimodale Modelle keineswegs "Zero-Shot"-Verallgemeinerung aufweisen, sondern exponentiell mehr Daten benötigen, um lineare Verbesserungen in der nachgelagerten "Zero-Shot"-Leistung zu erzielen, wobei ein sample-ineffizienter log-linearer Skalierungstrend befolgt wird. Dieser Trend besteht auch dann fort, wenn die Ähnlichkeit auf der Sample-Ebene zwischen Pretraining- und nachgelagerten Datensätzen kontrolliert wird und Tests auf rein synthetischen Datenverteilungen durchgeführt werden. Darüber hinaus zeigen wir bei der Benchmarking-Prüfung von Modellen anhand von langschwänzigen Daten, die auf unserer Analyse basieren, dass multimodale Modelle insgesamt schlecht abschneiden. Wir stellen diesen Long-Tail-Testdatensatz als Benchmark "Let it Wag!" zur weiteren Forschung in diese Richtung vor. Zusammenfassend zeigt unsere Studie einen exponentiellen Bedarf an Trainingsdaten auf, was darauf hindeutet, dass der Schlüssel zu den Verallgemeinerungsfähigkeiten im "Zero-Shot"-Modus unter groß angelegten Trainingsparadigmen noch gefunden werden muss.

English

Web-crawled pretraining datasets underlie the impressive "zero-shot" evaluation performance of multimodal models, such as CLIP for classification/retrieval and Stable-Diffusion for image generation. However, it is unclear how meaningful the notion of "zero-shot" generalization is for such multimodal models, as it is not known to what extent their pretraining datasets encompass the downstream concepts targeted for during "zero-shot" evaluation. In this work, we ask: How is the performance of multimodal models on downstream concepts influenced by the frequency of these concepts in their pretraining datasets? We comprehensively investigate this question across 34 models and five standard pretraining datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), generating over 300GB of data artifacts. We consistently find that, far from exhibiting "zero-shot" generalization, multimodal models require exponentially more data to achieve linear improvements in downstream "zero-shot" performance, following a sample inefficient log-linear scaling trend. This trend persists even when controlling for sample-level similarity between pretraining and downstream datasets, and testing on purely synthetic data distributions. Furthermore, upon benchmarking models on long-tailed data sampled based on our analysis, we demonstrate that multimodal models across the board perform poorly. We contribute this long-tail test set as the "Let it Wag!" benchmark to further research in this direction. Taken together, our study reveals an exponential need for training data which implies that the key to "zero-shot" generalization capabilities under large-scale training paradigms remains to be found.

Kein "Zero-Shot" ohne exponentielle Daten: Die Häufigkeit von Konzepten beim Pretraining bestimmt die Leistung von multimodalen Modellen.

No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance

papers.abstract

Support