Miglioramento dei Dataset Multimodali con la Generazione di Didascalie per Immagini
Improving Multimodal Datasets with Image Captioning
July 19, 2023
Autori: Thao Nguyen, Samir Yitzhak Gadre, Gabriel Ilharco, Sewoong Oh, Ludwig Schmidt
cs.AI
Abstract
I grandi dataset web svolgono un ruolo chiave nel successo di modelli visione-linguaggio su larga scala come CLIP e Flamingo. Tuttavia, i dati web grezzi sono rumorosi, e i metodi di filtraggio esistenti per ridurre il rumore spesso comportano una riduzione della diversità dei dati. Il nostro lavoro si concentra sulla qualità delle didascalie come una delle principali fonti di rumore e studia come le didascalie generate possano aumentare l'utilità dei dati web con testo non descrittivo. Esplorando diverse strategie di miscelazione per didascalie grezze e generate, superiamo il miglior metodo di filtraggio proposto dal benchmark DataComp del 2% su ImageNet e del 4% in media su 38 task, dato un pool di candidati di 128 milioni di coppie immagine-testo. Il nostro approccio migliore è anche 2 volte più efficace nel retrieval su Flickr e MS-COCO. Analizziamo poi cosa rende le didascalie sintetiche una fonte efficace di supervisione testuale. Sperimentando con diversi modelli di generazione di didascalie, dimostriamo inoltre che le prestazioni di un modello su benchmark standard di generazione di didascalie (ad esempio, NoCaps CIDEr) non sono un indicatore affidabile dell'utilità delle didascalie che genera per l'addestramento multimodale. Infine, i nostri esperimenti con l'uso di didascalie generate su larga scala (1,28 miliardi di coppie immagine-testo) offrono approfondimenti sui limiti del testo sintetico, nonché sull'importanza della cura delle immagini con l'aumentare della quantità di dati di addestramento.
English
Massive web datasets play a key role in the success of large vision-language
models like CLIP and Flamingo. However, the raw web data is noisy, and existing
filtering methods to reduce noise often come at the expense of data diversity.
Our work focuses on caption quality as one major source of noise, and studies
how generated captions can increase the utility of web-scraped datapoints with
nondescript text. Through exploring different mixing strategies for raw and
generated captions, we outperform the best filtering method proposed by the
DataComp benchmark by 2% on ImageNet and 4% on average across 38 tasks, given a
candidate pool of 128M image-text pairs. Our best approach is also 2x better at
Flickr and MS-COCO retrieval. We then analyze what makes synthetic captions an
effective source of text supervision. In experimenting with different image
captioning models, we also demonstrate that the performance of a model on
standard image captioning benchmarks (e.g., NoCaps CIDEr) is not a reliable
indicator of the utility of the captions it generates for multimodal training.
Finally, our experiments with using generated captions at DataComp's large
scale (1.28B image-text pairs) offer insights into the limitations of synthetic
text, as well as the importance of image curation with increasing training data
quantity.