ChatPaper.aiChatPaper

Улучшение мультимодальных наборов данных с помощью генерации подписей к изображениям

Improving Multimodal Datasets with Image Captioning

July 19, 2023
Авторы: Thao Nguyen, Samir Yitzhak Gadre, Gabriel Ilharco, Sewoong Oh, Ludwig Schmidt
cs.AI

Аннотация

Массивные веб-датасеты играют ключевую роль в успехе крупных моделей, работающих с визуальными и текстовыми данными, таких как CLIP и Flamingo. Однако сырые веб-данные зашумлены, и существующие методы фильтрации для снижения уровня шума часто приводят к потере разнообразия данных. Наша работа сосредоточена на качестве подписей как одном из основных источников шума и исследует, как сгенерированные подписи могут повысить полезность веб-скрапленных данных с неинформативным текстом. Изучая различные стратегии смешивания сырых и сгенерированных подписей, мы превосходим лучший метод фильтрации, предложенный бенчмарком DataComp, на 2% на ImageNet и на 4% в среднем по 38 задачам, при наличии пула из 128 миллионов пар изображение-текст. Наш лучший подход также в 2 раза эффективнее в задачах поиска на Flickr и MS-COCO. Затем мы анализируем, что делает синтетические подписи эффективным источником текстового супервизии. Экспериментируя с различными моделями генерации подписей к изображениям, мы также показываем, что производительность модели на стандартных бенчмарках для генерации подписей (например, NoCaps CIDEr) не является надежным индикатором полезности генерируемых ею подписей для мультимодального обучения. Наконец, наши эксперименты с использованием сгенерированных подписей на масштабе DataComp (1,28 миллиарда пар изображение-текст) дают представление о ограничениях синтетического текста, а также о важности курации изображений с увеличением объема обучающих данных.
English
Massive web datasets play a key role in the success of large vision-language models like CLIP and Flamingo. However, the raw web data is noisy, and existing filtering methods to reduce noise often come at the expense of data diversity. Our work focuses on caption quality as one major source of noise, and studies how generated captions can increase the utility of web-scraped datapoints with nondescript text. Through exploring different mixing strategies for raw and generated captions, we outperform the best filtering method proposed by the DataComp benchmark by 2% on ImageNet and 4% on average across 38 tasks, given a candidate pool of 128M image-text pairs. Our best approach is also 2x better at Flickr and MS-COCO retrieval. We then analyze what makes synthetic captions an effective source of text supervision. In experimenting with different image captioning models, we also demonstrate that the performance of a model on standard image captioning benchmarks (e.g., NoCaps CIDEr) is not a reliable indicator of the utility of the captions it generates for multimodal training. Finally, our experiments with using generated captions at DataComp's large scale (1.28B image-text pairs) offer insights into the limitations of synthetic text, as well as the importance of image curation with increasing training data quantity.
PDF110December 15, 2024