Verbesserung multimodaler Datensätze durch Bildbeschreibung
Improving Multimodal Datasets with Image Captioning
July 19, 2023
Autoren: Thao Nguyen, Samir Yitzhak Gadre, Gabriel Ilharco, Sewoong Oh, Ludwig Schmidt
cs.AI
Zusammenfassung
Massive Web-Datensätze spielen eine entscheidende Rolle für den Erfolg großer Vision-Language-Modelle wie CLIP und Flamingo. Allerdings sind die Rohdaten aus dem Web verrauscht, und bestehende Filtermethoden zur Reduzierung des Rauschens gehen oft auf Kosten der Datenvielfalt. Unsere Arbeit konzentriert sich auf die Qualität von Bildbeschreibungen als eine Hauptquelle für Rauschen und untersucht, wie generierte Beschreibungen den Nutzen von Web-scraped-Datensätzen mit nichtssagendem Text erhöhen können. Durch die Erforschung verschiedener Mischstrategien für rohe und generierte Beschreibungen übertreffen wir die beste Filtermethode, die vom DataComp-Benchmark vorgeschlagen wurde, um 2 % auf ImageNet und im Durchschnitt um 4 % über 38 Aufgaben hinweg, bei einem Kandidatenpool von 128 Millionen Bild-Text-Paaren. Unser bester Ansatz ist auch 2x besser bei der Retrieval-Leistung auf Flickr und MS-COCO. Anschließend analysieren wir, was synthetische Beschreibungen zu einer effektiven Quelle für Textsupervision macht. In Experimenten mit verschiedenen Bildbeschreibungsmodellen zeigen wir außerdem, dass die Leistung eines Modells auf standardisierten Bildbeschreibungs-Benchmarks (z. B. NoCaps CIDEr) kein zuverlässiger Indikator für den Nutzen der generierten Beschreibungen für das multimodale Training ist. Schließlich bieten unsere Experimente mit der Verwendung generierter Beschreibungen im großen Maßstab von DataComp (1,28 Milliarden Bild-Text-Paare) Einblicke in die Grenzen synthetischer Texte sowie in die Bedeutung der Bildkuratierung mit zunehmender Trainingsdatenmenge.
English
Massive web datasets play a key role in the success of large vision-language
models like CLIP and Flamingo. However, the raw web data is noisy, and existing
filtering methods to reduce noise often come at the expense of data diversity.
Our work focuses on caption quality as one major source of noise, and studies
how generated captions can increase the utility of web-scraped datapoints with
nondescript text. Through exploring different mixing strategies for raw and
generated captions, we outperform the best filtering method proposed by the
DataComp benchmark by 2% on ImageNet and 4% on average across 38 tasks, given a
candidate pool of 128M image-text pairs. Our best approach is also 2x better at
Flickr and MS-COCO retrieval. We then analyze what makes synthetic captions an
effective source of text supervision. In experimenting with different image
captioning models, we also demonstrate that the performance of a model on
standard image captioning benchmarks (e.g., NoCaps CIDEr) is not a reliable
indicator of the utility of the captions it generates for multimodal training.
Finally, our experiments with using generated captions at DataComp's large
scale (1.28B image-text pairs) offer insights into the limitations of synthetic
text, as well as the importance of image curation with increasing training data
quantity.