Geen "Zero-Shot" zonder Exponentiële Data: Frequentie van Pretrainingsconcepten Bepaalt Prestaties van Multimodale Modellen
No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance
April 4, 2024
Auteurs: Vishaal Udandarao, Ameya Prabhu, Adhiraj Ghosh, Yash Sharma, Philip H. S. Torr, Adel Bibi, Samuel Albanie, Matthias Bethge
cs.AI
Samenvatting
Web-gecrawlde pretrainingsdatasets vormen de basis voor de indrukwekkende "zero-shot" evaluatieprestaties van multimodale modellen, zoals CLIP voor classificatie/retrieval en Stable-Diffusion voor beeldgeneratie. Het is echter onduidelijk hoe betekenisvol het concept van "zero-shot" generalisatie is voor dergelijke multimodale modellen, aangezien niet bekend is in hoeverre hun pretrainingsdatasets de downstream-concepten omvatten die tijdens "zero-shot" evaluatie worden beoogd. In dit werk stellen we de vraag: Hoe wordt de prestaties van multimodale modellen op downstream-concepten beïnvloed door de frequentie van deze concepten in hun pretrainingsdatasets? We onderzoeken deze vraag uitgebreid over 34 modellen en vijf standaard pretrainingsdatasets (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), waarbij we meer dan 300GB aan data-artefacten genereren. We constateren consistent dat, verre van het vertonen van "zero-shot" generalisatie, multimodale modellen exponentieel meer data nodig hebben om lineaire verbeteringen in downstream "zero-shot" prestaties te bereiken, volgens een sample-inefficiënte log-lineaire schaalings trend. Deze trend blijft bestaan zelfs wanneer wordt gecontroleerd voor sample-level gelijkenis tussen pretrainings- en downstream-datasets, en wanneer wordt getest op puur synthetische dataverdelingen. Bovendien tonen we, door modellen te benchmarken op long-tailed data die is bemonsterd op basis van onze analyse, aan dat multimodale modellen over de hele linie slecht presteren. We dragen deze long-tail testset bij als de "Let it Wag!" benchmark om verder onderzoek in deze richting te bevorderen. Samengevat onthult onze studie een exponentiële behoefte aan trainingsdata, wat impliceert dat de sleutel tot "zero-shot" generalisatiecapaciteiten onder grootschalige trainingsparadigma's nog moet worden gevonden.
English
Web-crawled pretraining datasets underlie the impressive "zero-shot"
evaluation performance of multimodal models, such as CLIP for
classification/retrieval and Stable-Diffusion for image generation. However, it
is unclear how meaningful the notion of "zero-shot" generalization is for such
multimodal models, as it is not known to what extent their pretraining datasets
encompass the downstream concepts targeted for during "zero-shot" evaluation.
In this work, we ask: How is the performance of multimodal models on downstream
concepts influenced by the frequency of these concepts in their pretraining
datasets? We comprehensively investigate this question across 34 models and
five standard pretraining datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M,
LAION-Aesthetics), generating over 300GB of data artifacts. We consistently
find that, far from exhibiting "zero-shot" generalization, multimodal models
require exponentially more data to achieve linear improvements in downstream
"zero-shot" performance, following a sample inefficient log-linear scaling
trend. This trend persists even when controlling for sample-level similarity
between pretraining and downstream datasets, and testing on purely synthetic
data distributions. Furthermore, upon benchmarking models on long-tailed data
sampled based on our analysis, we demonstrate that multimodal models across the
board perform poorly. We contribute this long-tail test set as the "Let it
Wag!" benchmark to further research in this direction. Taken together, our
study reveals an exponential need for training data which implies that the key
to "zero-shot" generalization capabilities under large-scale training paradigms
remains to be found.