Multimodale datasets verbeteren met beeldbeschrijving
Improving Multimodal Datasets with Image Captioning
July 19, 2023
Auteurs: Thao Nguyen, Samir Yitzhak Gadre, Gabriel Ilharco, Sewoong Oh, Ludwig Schmidt
cs.AI
Samenvatting
Massieve webdatasets spelen een cruciale rol in het succes van grote visie-taalmodellen zoals CLIP en Flamingo. Echter, de ruwe webdata is vaak rommelig, en bestaande filtermethoden om ruis te verminderen gaan vaak ten koste van de diversiteit van de data. Ons werk richt zich op de kwaliteit van bijschriften als een belangrijke bron van ruis, en onderzoekt hoe gegenereerde bijschriften de bruikbaarheid van webgeschraapte datapunten met onduidelijke tekst kunnen vergroten. Door verschillende mengstrategieën voor ruwe en gegenereerde bijschriften te verkennen, overtreffen we de beste filtermethode die door de DataComp-benchmark wordt voorgesteld met 2% op ImageNet en 4% gemiddeld over 38 taken, gegeven een kandidaatpool van 128 miljoen afbeelding-tekstparen. Onze beste aanpak is ook 2x beter bij Flickr- en MS-COCO-retrieval. Vervolgens analyseren we wat synthetische bijschriften een effectieve bron van tekstsupervisie maakt. Door te experimenteren met verschillende afbeelding-bijschriftmodellen, tonen we ook aan dat de prestaties van een model op standaard afbeelding-bijschriftbenchmarks (bijv. NoCaps CIDEr) geen betrouwbare indicator is van de bruikbaarheid van de bijschriften die het genereert voor multimodale training. Tot slot bieden onze experimenten met het gebruik van gegenereerde bijschriften op de grote schaal van DataComp (1,28 miljard afbeelding-tekstparen) inzichten in de beperkingen van synthetische tekst, evenals het belang van afbeeldingscuratie bij toenemende hoeveelheden trainingsdata.
English
Massive web datasets play a key role in the success of large vision-language
models like CLIP and Flamingo. However, the raw web data is noisy, and existing
filtering methods to reduce noise often come at the expense of data diversity.
Our work focuses on caption quality as one major source of noise, and studies
how generated captions can increase the utility of web-scraped datapoints with
nondescript text. Through exploring different mixing strategies for raw and
generated captions, we outperform the best filtering method proposed by the
DataComp benchmark by 2% on ImageNet and 4% on average across 38 tasks, given a
candidate pool of 128M image-text pairs. Our best approach is also 2x better at
Flickr and MS-COCO retrieval. We then analyze what makes synthetic captions an
effective source of text supervision. In experimenting with different image
captioning models, we also demonstrate that the performance of a model on
standard image captioning benchmarks (e.g., NoCaps CIDEr) is not a reliable
indicator of the utility of the captions it generates for multimodal training.
Finally, our experiments with using generated captions at DataComp's large
scale (1.28B image-text pairs) offer insights into the limitations of synthetic
text, as well as the importance of image curation with increasing training data
quantity.