Nessuno "Zero-Shot" Senza Dati Esponenziali: La Frequenza dei Concetti nel Pretraining Determina le Prestazioni dei Modelli Multimodali
No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance
April 4, 2024
Autori: Vishaal Udandarao, Ameya Prabhu, Adhiraj Ghosh, Yash Sharma, Philip H. S. Torr, Adel Bibi, Samuel Albanie, Matthias Bethge
cs.AI
Abstract
I dataset di pre-addestramento raccolti dal web sono alla base delle impressionanti prestazioni di valutazione "zero-shot" dei modelli multimodali, come CLIP per la classificazione/recupero e Stable-Diffusion per la generazione di immagini. Tuttavia, non è chiaro quanto sia significativa la nozione di generalizzazione "zero-shot" per tali modelli multimodali, poiché non è noto in quale misura i loro dataset di pre-addestramento includano i concetti downstream mirati durante la valutazione "zero-shot". In questo lavoro, ci chiediamo: in che modo la frequenza di questi concetti nei dataset di pre-addestramento influenza le prestazioni dei modelli multimodali sui concetti downstream? Indaghiamo approfonditamente questa questione attraverso 34 modelli e cinque dataset di pre-addestramento standard (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), generando oltre 300GB di artefatti di dati. Troviamo costantemente che, lungi dall'esibire una generalizzazione "zero-shot", i modelli multimodali richiedono esponenzialmente più dati per ottenere miglioramenti lineari nelle prestazioni "zero-shot" downstream, seguendo una tendenza di scalatura log-lineare inefficiente in termini di campioni. Questa tendenza persiste anche quando si controlla la similarità a livello di campione tra i dataset di pre-addestramento e quelli downstream, e testando su distribuzioni di dati puramente sintetiche. Inoltre, valutando i modelli su dati a coda lunga campionati in base alla nostra analisi, dimostriamo che i modelli multimodali in generale hanno prestazioni scarse. Contribuiamo con questo set di test a coda lunga come benchmark "Let it Wag!" per ulteriori ricerche in questa direzione. Nel complesso, il nostro studio rivela un bisogno esponenziale di dati di addestramento, il che implica che la chiave per le capacità di generalizzazione "zero-shot" sotto paradigmi di addestramento su larga scala rimane da trovare.
English
Web-crawled pretraining datasets underlie the impressive "zero-shot"
evaluation performance of multimodal models, such as CLIP for
classification/retrieval and Stable-Diffusion for image generation. However, it
is unclear how meaningful the notion of "zero-shot" generalization is for such
multimodal models, as it is not known to what extent their pretraining datasets
encompass the downstream concepts targeted for during "zero-shot" evaluation.
In this work, we ask: How is the performance of multimodal models on downstream
concepts influenced by the frequency of these concepts in their pretraining
datasets? We comprehensively investigate this question across 34 models and
five standard pretraining datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M,
LAION-Aesthetics), generating over 300GB of data artifacts. We consistently
find that, far from exhibiting "zero-shot" generalization, multimodal models
require exponentially more data to achieve linear improvements in downstream
"zero-shot" performance, following a sample inefficient log-linear scaling
trend. This trend persists even when controlling for sample-level similarity
between pretraining and downstream datasets, and testing on purely synthetic
data distributions. Furthermore, upon benchmarking models on long-tailed data
sampled based on our analysis, we demonstrate that multimodal models across the
board perform poorly. We contribute this long-tail test set as the "Let it
Wag!" benchmark to further research in this direction. Taken together, our
study reveals an exponential need for training data which implies that the key
to "zero-shot" generalization capabilities under large-scale training paradigms
remains to be found.