Melhorando Conjuntos de Dados Multimodais com Geração de Legendas para Imagens
Improving Multimodal Datasets with Image Captioning
July 19, 2023
Autores: Thao Nguyen, Samir Yitzhak Gadre, Gabriel Ilharco, Sewoong Oh, Ludwig Schmidt
cs.AI
Resumo
Conjuntos de dados massivos da web desempenham um papel crucial no sucesso de grandes modelos de visão e linguagem, como CLIP e Flamingo. No entanto, os dados brutos da web são ruidosos, e os métodos de filtragem existentes para reduzir o ruído frequentemente comprometem a diversidade dos dados. Nosso trabalho foca na qualidade das legendas como uma das principais fontes de ruído e investiga como legendas geradas podem aumentar a utilidade de pontos de dados extraídos da web que possuem texto pouco descritivo. Ao explorar diferentes estratégias de combinação entre legendas brutas e geradas, superamos o melhor método de filtragem proposto pelo benchmark DataComp em 2% no ImageNet e 4% em média em 38 tarefas, considerando um conjunto de 128 milhões de pares imagem-texto. Nossa melhor abordagem também é 2x melhor na recuperação de imagens no Flickr e MS-COCO. Em seguida, analisamos o que torna as legendas sintéticas uma fonte eficaz de supervisão textual. Ao experimentar com diferentes modelos de geração de legendas, também demonstramos que o desempenho de um modelo em benchmarks padrão de legendagem de imagens (por exemplo, NoCaps CIDEr) não é um indicador confiável da utilidade das legendas que ele gera para treinamento multimodal. Por fim, nossos experimentos com o uso de legendas geradas na escala grande do DataComp (1,28 bilhão de pares imagem-texto) oferecem insights sobre as limitações do texto sintético, bem como a importância da curadoria de imagens com o aumento da quantidade de dados de treinamento.
English
Massive web datasets play a key role in the success of large vision-language
models like CLIP and Flamingo. However, the raw web data is noisy, and existing
filtering methods to reduce noise often come at the expense of data diversity.
Our work focuses on caption quality as one major source of noise, and studies
how generated captions can increase the utility of web-scraped datapoints with
nondescript text. Through exploring different mixing strategies for raw and
generated captions, we outperform the best filtering method proposed by the
DataComp benchmark by 2% on ImageNet and 4% on average across 38 tasks, given a
candidate pool of 128M image-text pairs. Our best approach is also 2x better at
Flickr and MS-COCO retrieval. We then analyze what makes synthetic captions an
effective source of text supervision. In experimenting with different image
captioning models, we also demonstrate that the performance of a model on
standard image captioning benchmarks (e.g., NoCaps CIDEr) is not a reliable
indicator of the utility of the captions it generates for multimodal training.
Finally, our experiments with using generated captions at DataComp's large
scale (1.28B image-text pairs) offer insights into the limitations of synthetic
text, as well as the importance of image curation with increasing training data
quantity.