이미지 캡셔닝을 활용한 멀티모달 데이터셋 개선
Improving Multimodal Datasets with Image Captioning
July 19, 2023
저자: Thao Nguyen, Samir Yitzhak Gadre, Gabriel Ilharco, Sewoong Oh, Ludwig Schmidt
cs.AI
초록
대규모 웹 데이터셋은 CLIP과 Flamingo와 같은 대형 시각-언어 모델의 성공에 핵심적인 역할을 합니다. 그러나 원시 웹 데이터는 노이즈가 많으며, 노이즈를 줄이기 위한 기존의 필터링 방법들은 종종 데이터 다양성을 희생시키는 결과를 가져옵니다. 우리의 연구는 노이즈의 주요 원인 중 하나인 캡션 품질에 초점을 맞추고, 설명이 부족한 텍스트를 가진 웹 스크랩 데이터 포인트의 유용성을 높이기 위해 생성된 캡션이 어떻게 활용될 수 있는지 연구합니다. 원시 캡션과 생성된 캡션을 혼합하는 다양한 전략을 탐구함으로써, 우리는 1억 2,800만 개의 이미지-텍스트 쌍 후보 풀에서 DataComp 벤치마크가 제안한 최고의 필터링 방법보다 ImageNet에서 2%, 38개 작업 전체 평균에서 4% 더 나은 성능을 달성했습니다. 또한 우리의 최적 접근법은 Flickr 및 MS-COCO 검색에서 2배 더 나은 성능을 보였습니다. 그런 다음 우리는 합성 캡션이 텍스트 지도 학습의 효과적인 소스가 되는 요인을 분석했습니다. 다양한 이미지 캡셔닝 모델을 실험하면서, 표준 이미지 캡셔닝 벤치마크(예: NoCaps CIDEr)에서의 모델 성능이 다중모달 학습을 위해 생성하는 캡션의 유용성을 신뢰할 수 있는 지표가 아니라는 점도 입증했습니다. 마지막으로, DataComp의 대규모(12억 8천만 개의 이미지-텍스트 쌍)에서 생성된 캡션을 사용한 실험을 통해 합성 텍스트의 한계와 훈련 데이터 양이 증가함에 따른 이미지 큐레이션의 중요성에 대한 통찰을 제공합니다.
English
Massive web datasets play a key role in the success of large vision-language
models like CLIP and Flamingo. However, the raw web data is noisy, and existing
filtering methods to reduce noise often come at the expense of data diversity.
Our work focuses on caption quality as one major source of noise, and studies
how generated captions can increase the utility of web-scraped datapoints with
nondescript text. Through exploring different mixing strategies for raw and
generated captions, we outperform the best filtering method proposed by the
DataComp benchmark by 2% on ImageNet and 4% on average across 38 tasks, given a
candidate pool of 128M image-text pairs. Our best approach is also 2x better at
Flickr and MS-COCO retrieval. We then analyze what makes synthetic captions an
effective source of text supervision. In experimenting with different image
captioning models, we also demonstrate that the performance of a model on
standard image captioning benchmarks (e.g., NoCaps CIDEr) is not a reliable
indicator of the utility of the captions it generates for multimodal training.
Finally, our experiments with using generated captions at DataComp's large
scale (1.28B image-text pairs) offer insights into the limitations of synthetic
text, as well as the importance of image curation with increasing training data
quantity.