Pas de "Zero-Shot" sans données exponentielles : La fréquence des concepts en prétraining détermine la performance des modèles multimodaux

papers.abstract

Les ensembles de données de pré-entraînement obtenus par exploration web sous-tendent les performances impressionnantes en évaluation "zero-shot" des modèles multimodaux, tels que CLIP pour la classification/la recherche et Stable-Diffusion pour la génération d'images. Cependant, il n'est pas clair à quel point la notion de généralisation "zero-shot" est significative pour ces modèles multimodaux, car on ne sait pas dans quelle mesure leurs ensembles de données de pré-entraînement englobent les concepts ciblés lors de l'évaluation "zero-shot". Dans ce travail, nous posons la question suivante : Comment la performance des modèles multimodaux sur les concepts en aval est-elle influencée par la fréquence de ces concepts dans leurs ensembles de données de pré-entraînement ? Nous examinons cette question de manière exhaustive à travers 34 modèles et cinq ensembles de données de pré-entraînement standard (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), générant plus de 300 Go d'artefacts de données. Nous constatons systématiquement que, loin d'exhiber une généralisation "zero-shot", les modèles multimodaux nécessitent exponentiellement plus de données pour obtenir des améliorations linéaires de leurs performances "zero-shot" en aval, suivant une tendance d'échelle log-linéaire peu efficace en termes d'échantillons. Cette tendance persiste même en contrôlant la similarité au niveau des échantillons entre les ensembles de données de pré-entraînement et ceux en aval, et en testant sur des distributions de données purement synthétiques. De plus, en évaluant les modèles sur des données à longue traîne échantillonnées sur la base de notre analyse, nous démontrons que les modèles multimodaux dans leur ensemble performent mal. Nous contribuons cet ensemble de test à longue traîne sous le nom de benchmark "Let it Wag!" pour approfondir la recherche dans cette direction. Pris ensemble, notre étude révèle un besoin exponentiel en données d'entraînement, ce qui implique que la clé des capacités de généralisation "zero-shot" sous les paradigmes d'entraînement à grande échelle reste à découvrir.

English

Web-crawled pretraining datasets underlie the impressive "zero-shot" evaluation performance of multimodal models, such as CLIP for classification/retrieval and Stable-Diffusion for image generation. However, it is unclear how meaningful the notion of "zero-shot" generalization is for such multimodal models, as it is not known to what extent their pretraining datasets encompass the downstream concepts targeted for during "zero-shot" evaluation. In this work, we ask: How is the performance of multimodal models on downstream concepts influenced by the frequency of these concepts in their pretraining datasets? We comprehensively investigate this question across 34 models and five standard pretraining datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), generating over 300GB of data artifacts. We consistently find that, far from exhibiting "zero-shot" generalization, multimodal models require exponentially more data to achieve linear improvements in downstream "zero-shot" performance, following a sample inefficient log-linear scaling trend. This trend persists even when controlling for sample-level similarity between pretraining and downstream datasets, and testing on purely synthetic data distributions. Furthermore, upon benchmarking models on long-tailed data sampled based on our analysis, we demonstrate that multimodal models across the board perform poorly. We contribute this long-tail test set as the "Let it Wag!" benchmark to further research in this direction. Taken together, our study reveals an exponential need for training data which implies that the key to "zero-shot" generalization capabilities under large-scale training paradigms remains to be found.

Pas de "Zero-Shot" sans données exponentielles : La fréquence des concepts en prétraining détermine la performance des modèles multimodaux

No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance

papers.abstract

Support