Amélioration des ensembles de données multimodales grâce à la génération de légendes d'images
Improving Multimodal Datasets with Image Captioning
July 19, 2023
Auteurs: Thao Nguyen, Samir Yitzhak Gadre, Gabriel Ilharco, Sewoong Oh, Ludwig Schmidt
cs.AI
Résumé
Les vastes ensembles de données web jouent un rôle clé dans le succès des grands modèles vision-langage comme CLIP et Flamingo. Cependant, les données web brutes sont bruyantes, et les méthodes de filtrage existantes pour réduire ce bruit se font souvent au détriment de la diversité des données. Notre travail se concentre sur la qualité des légendes comme source majeure de bruit, et étudie comment les légendes générées peuvent augmenter l'utilité des points de données extraits du web avec des textes peu descriptifs. En explorant différentes stratégies de mélange pour les légendes brutes et générées, nous surpassons la meilleure méthode de filtrage proposée par le benchmark DataComp de 2 % sur ImageNet et de 4 % en moyenne sur 38 tâches, avec un pool de candidats de 128 millions de paires image-texte. Notre meilleure approche est également deux fois plus performante pour la recherche sur Flickr et MS-COCO. Nous analysons ensuite ce qui rend les légendes synthétiques une source efficace de supervision textuelle. En expérimentant avec différents modèles de génération de légendes d'images, nous démontrons également que la performance d'un modèle sur les benchmarks standards de légendage d'images (par exemple, NoCaps CIDEr) n'est pas un indicateur fiable de l'utilité des légendes qu'il génère pour l'entraînement multimodal. Enfin, nos expériences avec l'utilisation de légendes générées à l'échelle de DataComp (1,28 milliard de paires image-texte) offrent des insights sur les limites du texte synthétique, ainsi que sur l'importance de la curation des images avec l'augmentation de la quantité de données d'entraînement.
English
Massive web datasets play a key role in the success of large vision-language
models like CLIP and Flamingo. However, the raw web data is noisy, and existing
filtering methods to reduce noise often come at the expense of data diversity.
Our work focuses on caption quality as one major source of noise, and studies
how generated captions can increase the utility of web-scraped datapoints with
nondescript text. Through exploring different mixing strategies for raw and
generated captions, we outperform the best filtering method proposed by the
DataComp benchmark by 2% on ImageNet and 4% on average across 38 tasks, given a
candidate pool of 128M image-text pairs. Our best approach is also 2x better at
Flickr and MS-COCO retrieval. We then analyze what makes synthetic captions an
effective source of text supervision. In experimenting with different image
captioning models, we also demonstrate that the performance of a model on
standard image captioning benchmarks (e.g., NoCaps CIDEr) is not a reliable
indicator of the utility of the captions it generates for multimodal training.
Finally, our experiments with using generated captions at DataComp's large
scale (1.28B image-text pairs) offer insights into the limitations of synthetic
text, as well as the importance of image curation with increasing training data
quantity.