Pas de "Zero-Shot" sans données exponentielles : La fréquence des concepts en prétraining détermine la performance des modèles multimodaux
No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance
April 4, 2024
Auteurs: Vishaal Udandarao, Ameya Prabhu, Adhiraj Ghosh, Yash Sharma, Philip H. S. Torr, Adel Bibi, Samuel Albanie, Matthias Bethge
cs.AI
Résumé
Les ensembles de données de pré-entraînement obtenus par exploration web sous-tendent les performances impressionnantes en évaluation "zero-shot" des modèles multimodaux, tels que CLIP pour la classification/la recherche et Stable-Diffusion pour la génération d'images. Cependant, il n'est pas clair à quel point la notion de généralisation "zero-shot" est significative pour ces modèles multimodaux, car on ne sait pas dans quelle mesure leurs ensembles de données de pré-entraînement englobent les concepts ciblés lors de l'évaluation "zero-shot". Dans ce travail, nous posons la question suivante : Comment la performance des modèles multimodaux sur les concepts en aval est-elle influencée par la fréquence de ces concepts dans leurs ensembles de données de pré-entraînement ? Nous examinons cette question de manière exhaustive à travers 34 modèles et cinq ensembles de données de pré-entraînement standard (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), générant plus de 300 Go d'artefacts de données. Nous constatons systématiquement que, loin d'exhiber une généralisation "zero-shot", les modèles multimodaux nécessitent exponentiellement plus de données pour obtenir des améliorations linéaires de leurs performances "zero-shot" en aval, suivant une tendance d'échelle log-linéaire peu efficace en termes d'échantillons. Cette tendance persiste même en contrôlant la similarité au niveau des échantillons entre les ensembles de données de pré-entraînement et ceux en aval, et en testant sur des distributions de données purement synthétiques. De plus, en évaluant les modèles sur des données à longue traîne échantillonnées sur la base de notre analyse, nous démontrons que les modèles multimodaux dans leur ensemble performent mal. Nous contribuons cet ensemble de test à longue traîne sous le nom de benchmark "Let it Wag!" pour approfondir la recherche dans cette direction. Pris ensemble, notre étude révèle un besoin exponentiel en données d'entraînement, ce qui implique que la clé des capacités de généralisation "zero-shot" sous les paradigmes d'entraînement à grande échelle reste à découvrir.
English
Web-crawled pretraining datasets underlie the impressive "zero-shot"
evaluation performance of multimodal models, such as CLIP for
classification/retrieval and Stable-Diffusion for image generation. However, it
is unclear how meaningful the notion of "zero-shot" generalization is for such
multimodal models, as it is not known to what extent their pretraining datasets
encompass the downstream concepts targeted for during "zero-shot" evaluation.
In this work, we ask: How is the performance of multimodal models on downstream
concepts influenced by the frequency of these concepts in their pretraining
datasets? We comprehensively investigate this question across 34 models and
five standard pretraining datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M,
LAION-Aesthetics), generating over 300GB of data artifacts. We consistently
find that, far from exhibiting "zero-shot" generalization, multimodal models
require exponentially more data to achieve linear improvements in downstream
"zero-shot" performance, following a sample inefficient log-linear scaling
trend. This trend persists even when controlling for sample-level similarity
between pretraining and downstream datasets, and testing on purely synthetic
data distributions. Furthermore, upon benchmarking models on long-tailed data
sampled based on our analysis, we demonstrate that multimodal models across the
board perform poorly. We contribute this long-tail test set as the "Let it
Wag!" benchmark to further research in this direction. Taken together, our
study reveals an exponential need for training data which implies that the key
to "zero-shot" generalization capabilities under large-scale training paradigms
remains to be found.Summary
AI-Generated Summary