画像キャプショニングによるマルチモーダルデータセットの改善
Improving Multimodal Datasets with Image Captioning
July 19, 2023
著者: Thao Nguyen, Samir Yitzhak Gadre, Gabriel Ilharco, Sewoong Oh, Ludwig Schmidt
cs.AI
要旨
大規模なウェブデータセットは、CLIPやFlamingoのような大規模視覚言語モデルの成功において重要な役割を果たしています。しかし、生のウェブデータはノイズが多く、既存のノイズ低減のためのフィルタリング手法は、データの多様性を犠牲にすることがしばしばあります。本研究では、ノイズの主要な原因の一つとしてキャプションの品質に焦点を当て、記述的なテキストが欠けているウェブスクレイピングされたデータポイントに対して、生成されたキャプションがその有用性をどのように高めるかを検討します。生のキャプションと生成されたキャプションの異なる混合戦略を探索することで、1億2800万の画像-テキストペアの候補プールにおいて、DataCompベンチマークで提案された最良のフィルタリング手法をImageNetで2%、38のタスク全体で平均4%上回りました。また、FlickrとMS-COCOの検索においても、最良のアプローチは2倍の性能を発揮しました。次に、合成キャプションがテキスト監視の有効なソースとなる理由を分析します。異なる画像キャプションモデルを実験することで、標準的な画像キャプションベンチマーク(例:NoCaps CIDEr)でのモデルの性能が、マルチモーダルトレーニング用に生成されるキャプションの有用性の信頼できる指標ではないことも示します。最後に、DataCompの大規模(12億8千万の画像-テキストペア)で生成されたキャプションを使用した実験から、合成テキストの限界と、トレーニングデータ量の増加に伴う画像キュレーションの重要性についての洞察を得ました。
English
Massive web datasets play a key role in the success of large vision-language
models like CLIP and Flamingo. However, the raw web data is noisy, and existing
filtering methods to reduce noise often come at the expense of data diversity.
Our work focuses on caption quality as one major source of noise, and studies
how generated captions can increase the utility of web-scraped datapoints with
nondescript text. Through exploring different mixing strategies for raw and
generated captions, we outperform the best filtering method proposed by the
DataComp benchmark by 2% on ImageNet and 4% on average across 38 tasks, given a
candidate pool of 128M image-text pairs. Our best approach is also 2x better at
Flickr and MS-COCO retrieval. We then analyze what makes synthetic captions an
effective source of text supervision. In experimenting with different image
captioning models, we also demonstrate that the performance of a model on
standard image captioning benchmarks (e.g., NoCaps CIDEr) is not a reliable
indicator of the utility of the captions it generates for multimodal training.
Finally, our experiments with using generated captions at DataComp's large
scale (1.28B image-text pairs) offer insights into the limitations of synthetic
text, as well as the importance of image curation with increasing training data
quantity.