No hay "Zero-Shot" sin datos exponenciales: La frecuencia de conceptos en el preentrenamiento determina el rendimiento de los modelos multimodales
No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance
April 4, 2024
Autores: Vishaal Udandarao, Ameya Prabhu, Adhiraj Ghosh, Yash Sharma, Philip H. S. Torr, Adel Bibi, Samuel Albanie, Matthias Bethge
cs.AI
Resumen
Los conjuntos de datos de preentrenamiento obtenidos mediante web crawling sustentan el impresionante rendimiento en evaluaciones "zero-shot" de modelos multimodales, como CLIP para clasificación/recuperación y Stable-Diffusion para generación de imágenes. Sin embargo, no está claro cuán significativa es la noción de generalización "zero-shot" para estos modelos multimodales, ya que se desconoce hasta qué punto sus conjuntos de datos de preentrenamiento abarcan los conceptos específicos evaluados en las pruebas "zero-shot". En este trabajo, nos preguntamos: ¿Cómo influye la frecuencia de los conceptos en los conjuntos de datos de preentrenamiento en el rendimiento de los modelos multimodales sobre dichos conceptos? Investigamos exhaustivamente esta pregunta en 34 modelos y cinco conjuntos de datos estándar de preentrenamiento (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), generando más de 300 GB de artefactos de datos. Consistentemente, encontramos que, lejos de exhibir generalización "zero-shot", los modelos multimodales requieren exponencialmente más datos para lograr mejoras lineales en el rendimiento "zero-shot", siguiendo una tendencia de escalamiento log-lineal ineficiente en términos de muestras. Esta tendencia persiste incluso al controlar la similitud a nivel de muestra entre los conjuntos de datos de preentrenamiento y los de evaluación, y al probar en distribuciones de datos puramente sintéticas. Además, al evaluar modelos en datos de cola larga muestreados según nuestro análisis, demostramos que los modelos multimodales en general tienen un rendimiento deficiente. Contribuimos con este conjunto de pruebas de cola larga como el benchmark "Let it Wag!" para fomentar más investigación en esta dirección. En conjunto, nuestro estudio revela una necesidad exponencial de datos de entrenamiento, lo que implica que la clave para las capacidades de generalización "zero-shot" bajo paradigmas de entrenamiento a gran escala aún está por descubrirse.
English
Web-crawled pretraining datasets underlie the impressive "zero-shot"
evaluation performance of multimodal models, such as CLIP for
classification/retrieval and Stable-Diffusion for image generation. However, it
is unclear how meaningful the notion of "zero-shot" generalization is for such
multimodal models, as it is not known to what extent their pretraining datasets
encompass the downstream concepts targeted for during "zero-shot" evaluation.
In this work, we ask: How is the performance of multimodal models on downstream
concepts influenced by the frequency of these concepts in their pretraining
datasets? We comprehensively investigate this question across 34 models and
five standard pretraining datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M,
LAION-Aesthetics), generating over 300GB of data artifacts. We consistently
find that, far from exhibiting "zero-shot" generalization, multimodal models
require exponentially more data to achieve linear improvements in downstream
"zero-shot" performance, following a sample inefficient log-linear scaling
trend. This trend persists even when controlling for sample-level similarity
between pretraining and downstream datasets, and testing on purely synthetic
data distributions. Furthermore, upon benchmarking models on long-tailed data
sampled based on our analysis, we demonstrate that multimodal models across the
board perform poorly. We contribute this long-tail test set as the "Let it
Wag!" benchmark to further research in this direction. Taken together, our
study reveals an exponential need for training data which implies that the key
to "zero-shot" generalization capabilities under large-scale training paradigms
remains to be found.Summary
AI-Generated Summary