Sem "Zero-Shot" Sem Dados Exponenciais: A Frequência de Conceitos no Pré-treinamento Determina o Desempenho de Modelos Multimodais

Resumo

Conjuntos de dados de pré-treinamento obtidos por web crawling são a base do impressionante desempenho em avaliações "zero-shot" de modelos multimodais, como o CLIP para classificação/recuperação e o Stable-Diffusion para geração de imagens. No entanto, não está claro o quão significativa é a noção de generalização "zero-shot" para esses modelos multimodais, uma vez que não se sabe até que ponto seus conjuntos de dados de pré-treinamento abrangem os conceitos de interesse avaliados em cenários "zero-shot". Neste trabalho, questionamos: Como o desempenho de modelos multimodais em conceitos de interesse é influenciado pela frequência desses conceitos em seus conjuntos de dados de pré-treinamento? Investigamos essa questão de forma abrangente em 34 modelos e cinco conjuntos de dados de pré-treinamento padrão (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), gerando mais de 300GB de artefatos de dados. Consistentemente, descobrimos que, longe de exibir generalização "zero-shot", os modelos multimodais exigem exponencialmente mais dados para alcançar melhorias lineares no desempenho "zero-shot" em tarefas de interesse, seguindo uma tendência de escalonamento log-linear ineficiente em termos de amostras. Essa tendência persiste mesmo ao controlar a similaridade em nível de amostra entre os conjuntos de dados de pré-treinamento e os de interesse, e ao testar em distribuições de dados puramente sintéticas. Além disso, ao avaliar modelos em dados de cauda longa amostrados com base em nossa análise, demonstramos que os modelos multimodais, de forma geral, têm desempenho ruim. Contribuímos com esse conjunto de testes de cauda longa como o benchmark "Let it Wag!" para fomentar pesquisas nessa direção. Em conjunto, nosso estudo revela uma necessidade exponencial de dados de treinamento, o que implica que a chave para capacidades de generalização "zero-shot" sob paradigmas de treinamento em larga escala ainda precisa ser descoberta.

English

Web-crawled pretraining datasets underlie the impressive "zero-shot" evaluation performance of multimodal models, such as CLIP for classification/retrieval and Stable-Diffusion for image generation. However, it is unclear how meaningful the notion of "zero-shot" generalization is for such multimodal models, as it is not known to what extent their pretraining datasets encompass the downstream concepts targeted for during "zero-shot" evaluation. In this work, we ask: How is the performance of multimodal models on downstream concepts influenced by the frequency of these concepts in their pretraining datasets? We comprehensively investigate this question across 34 models and five standard pretraining datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), generating over 300GB of data artifacts. We consistently find that, far from exhibiting "zero-shot" generalization, multimodal models require exponentially more data to achieve linear improvements in downstream "zero-shot" performance, following a sample inefficient log-linear scaling trend. This trend persists even when controlling for sample-level similarity between pretraining and downstream datasets, and testing on purely synthetic data distributions. Furthermore, upon benchmarking models on long-tailed data sampled based on our analysis, we demonstrate that multimodal models across the board perform poorly. We contribute this long-tail test set as the "Let it Wag!" benchmark to further research in this direction. Taken together, our study reveals an exponential need for training data which implies that the key to "zero-shot" generalization capabilities under large-scale training paradigms remains to be found.

Sem "Zero-Shot" Sem Dados Exponenciais: A Frequência de Conceitos no Pré-treinamento Determina o Desempenho de Modelos Multimodais

No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance

Resumo

Support