ChatPaper.aiChatPaper

「ゼロショット」は指数関数的なデータなしには成り立たない:事前学習における概念の頻度がマルチモーダルモデルの性能を決定する

No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance

April 4, 2024
著者: Vishaal Udandarao, Ameya Prabhu, Adhiraj Ghosh, Yash Sharma, Philip H. S. Torr, Adel Bibi, Samuel Albanie, Matthias Bethge
cs.AI

要旨

ウェブクロールされた事前学習データセットは、CLIPの分類/検索やStable-Diffusionの画像生成など、マルチモーダルモデルの印象的な「ゼロショット」評価性能の基盤となっています。しかし、そのようなマルチモーダルモデルにおける「ゼロショット」汎化の概念がどれほど意味を持つかは不明確です。なぜなら、それらの事前学習データセットが「ゼロショット」評価の対象となる下流の概念をどの程度網羅しているかがわかっていないからです。本研究では、マルチモーダルモデルの下流概念に対する性能が、それらの概念が事前学習データセットに現れる頻度にどのように影響されるかを問います。この問いを34のモデルと5つの標準的な事前学習データセット(CC-3M、CC-12M、YFCC-15M、LAION-400M、LAION-Aesthetics)にわたって包括的に調査し、300GBを超えるデータアーティファクトを生成しました。一貫して見られるのは、「ゼロショット」汎化を示すどころか、マルチモーダルモデルは下流の「ゼロショット」性能を線形的に改善するために指数関数的に多くのデータを必要とし、サンプル効率の悪い対数線形スケーリングの傾向に従うということです。この傾向は、事前学習データセットと下流データセットのサンプルレベルの類似性を制御し、純粋に合成されたデータ分布でテストした場合でも持続します。さらに、私たちの分析に基づいてサンプリングされたロングテールデータでモデルをベンチマークすると、マルチモーダルモデル全体が低い性能を示すことを実証します。このロングテールテストセットを「Let it Wag!」ベンチマークとして提供し、この方向性のさらなる研究を促進します。全体として、私たちの研究は、大規模なトレーニングパラダイムの下での「ゼロショット」汎化能力の鍵がまだ見つかっていないことを示唆する、トレーニングデータに対する指数関数的な必要性を明らかにしています。
English
Web-crawled pretraining datasets underlie the impressive "zero-shot" evaluation performance of multimodal models, such as CLIP for classification/retrieval and Stable-Diffusion for image generation. However, it is unclear how meaningful the notion of "zero-shot" generalization is for such multimodal models, as it is not known to what extent their pretraining datasets encompass the downstream concepts targeted for during "zero-shot" evaluation. In this work, we ask: How is the performance of multimodal models on downstream concepts influenced by the frequency of these concepts in their pretraining datasets? We comprehensively investigate this question across 34 models and five standard pretraining datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), generating over 300GB of data artifacts. We consistently find that, far from exhibiting "zero-shot" generalization, multimodal models require exponentially more data to achieve linear improvements in downstream "zero-shot" performance, following a sample inefficient log-linear scaling trend. This trend persists even when controlling for sample-level similarity between pretraining and downstream datasets, and testing on purely synthetic data distributions. Furthermore, upon benchmarking models on long-tailed data sampled based on our analysis, we demonstrate that multimodal models across the board perform poorly. We contribute this long-tail test set as the "Let it Wag!" benchmark to further research in this direction. Taken together, our study reveals an exponential need for training data which implies that the key to "zero-shot" generalization capabilities under large-scale training paradigms remains to be found.

Summary

AI-Generated Summary

PDF301December 15, 2024