ChatPaper.aiChatPaper

Нет "Нулевого Запуска" без Экспоненциальных Данных: Частота Предварительного Обучения Концепций Определяет Производительность Мультимодельной Модели

No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance

April 4, 2024
Авторы: Vishaal Udandarao, Ameya Prabhu, Adhiraj Ghosh, Yash Sharma, Philip H. S. Torr, Adel Bibi, Samuel Albanie, Matthias Bethge
cs.AI

Аннотация

Подготовленные путем веб-сканирования наборы данных для предварительного обучения лежат в основе впечатляющей "нулевой" оценочной производительности мультимодельных моделей, таких как CLIP для классификации/поиска и Stable-Diffusion для генерации изображений. Однако неясно, насколько значимо понятие "нулевой" обобщения для таких мультимодельных моделей, поскольку неизвестно, насколько их наборы данных для предварительного обучения охватывают целевые концепции, нацеленные на "нулевую" оценку. В данной работе мы задаем вопрос: как производительность мультимодельных моделей на целевых концепциях зависит от частоты этих концепций в их наборах данных для предварительного обучения? Мы всесторонне исследуем этот вопрос на 34 моделях и пяти стандартных наборах данных для предварительного обучения (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), генерируя более 300 ГБ данных. Мы последовательно обнаруживаем, что, далеко не проявляя "нулевое" обобщение, мультимодельные модели требуют экспоненциально больше данных для достижения линейного улучшения в производительности на целевых концепциях "нулевого" обобщения, следуя тенденции логарифмического линейного масштабирования, требующей многообразия образцов. Эта тенденция сохраняется даже при контроле за сходством на уровне образцов между наборами данных для предварительного обучения и целевыми наборами данных, и при тестировании на чисто синтетических распределениях данных. Более того, после тестирования моделей на длиннохвостых данных, выбранных на основе нашего анализа, мы демонстрируем, что мультимодельные модели в целом показывают плохие результаты. Мы предоставляем этот тестовый набор длинных хвостов в качестве бенчмарка "Let it Wag!" для дальнейших исследований в этом направлении. В целом, наше исследование раскрывает экспоненциальную потребность в обучающих данных, что подразумевает, что ключ к возможностям "нулевого" обобщения в рамках парадигм обучения на большом масштабе еще предстоит найти.
English
Web-crawled pretraining datasets underlie the impressive "zero-shot" evaluation performance of multimodal models, such as CLIP for classification/retrieval and Stable-Diffusion for image generation. However, it is unclear how meaningful the notion of "zero-shot" generalization is for such multimodal models, as it is not known to what extent their pretraining datasets encompass the downstream concepts targeted for during "zero-shot" evaluation. In this work, we ask: How is the performance of multimodal models on downstream concepts influenced by the frequency of these concepts in their pretraining datasets? We comprehensively investigate this question across 34 models and five standard pretraining datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), generating over 300GB of data artifacts. We consistently find that, far from exhibiting "zero-shot" generalization, multimodal models require exponentially more data to achieve linear improvements in downstream "zero-shot" performance, following a sample inefficient log-linear scaling trend. This trend persists even when controlling for sample-level similarity between pretraining and downstream datasets, and testing on purely synthetic data distributions. Furthermore, upon benchmarking models on long-tailed data sampled based on our analysis, we demonstrate that multimodal models across the board perform poorly. We contribute this long-tail test set as the "Let it Wag!" benchmark to further research in this direction. Taken together, our study reveals an exponential need for training data which implies that the key to "zero-shot" generalization capabilities under large-scale training paradigms remains to be found.

Summary

AI-Generated Summary

PDF301December 15, 2024