Mejora de conjuntos de datos multimodales mediante generación de descripciones de imágenes
Improving Multimodal Datasets with Image Captioning
July 19, 2023
Autores: Thao Nguyen, Samir Yitzhak Gadre, Gabriel Ilharco, Sewoong Oh, Ludwig Schmidt
cs.AI
Resumen
Los conjuntos de datos masivos de la web desempeñan un papel clave en el éxito de los grandes modelos de visión y lenguaje como CLIP y Flamingo. Sin embargo, los datos web en bruto son ruidosos, y los métodos de filtrado existentes para reducir este ruido suelen sacrificar la diversidad de los datos. Nuestro trabajo se centra en la calidad de las descripciones como una de las principales fuentes de ruido, y estudia cómo las descripciones generadas pueden aumentar la utilidad de los datos extraídos de la web que contienen texto poco descriptivo. Al explorar diferentes estrategias de combinación entre descripciones en bruto y generadas, superamos el mejor método de filtrado propuesto por el benchmark DataComp en un 2% en ImageNet y en un 4% en promedio en 38 tareas, dado un conjunto de candidatos de 128 millones de pares imagen-texto. Nuestro mejor enfoque también es 2 veces mejor en la recuperación de imágenes en Flickr y MS-COCO. Luego analizamos qué hace que las descripciones sintéticas sean una fuente efectiva de supervisión textual. Al experimentar con diferentes modelos de generación de descripciones de imágenes, también demostramos que el rendimiento de un modelo en benchmarks estándar de generación de descripciones (por ejemplo, NoCaps CIDEr) no es un indicador confiable de la utilidad de las descripciones que genera para el entrenamiento multimodal. Finalmente, nuestros experimentos con el uso de descripciones generadas a gran escala en DataComp (1.28 mil millones de pares imagen-texto) ofrecen información sobre las limitaciones del texto sintético, así como la importancia de la curación de imágenes con el aumento de la cantidad de datos de entrenamiento.
English
Massive web datasets play a key role in the success of large vision-language
models like CLIP and Flamingo. However, the raw web data is noisy, and existing
filtering methods to reduce noise often come at the expense of data diversity.
Our work focuses on caption quality as one major source of noise, and studies
how generated captions can increase the utility of web-scraped datapoints with
nondescript text. Through exploring different mixing strategies for raw and
generated captions, we outperform the best filtering method proposed by the
DataComp benchmark by 2% on ImageNet and 4% on average across 38 tasks, given a
candidate pool of 128M image-text pairs. Our best approach is also 2x better at
Flickr and MS-COCO retrieval. We then analyze what makes synthetic captions an
effective source of text supervision. In experimenting with different image
captioning models, we also demonstrate that the performance of a model on
standard image captioning benchmarks (e.g., NoCaps CIDEr) is not a reliable
indicator of the utility of the captions it generates for multimodal training.
Finally, our experiments with using generated captions at DataComp's large
scale (1.28B image-text pairs) offer insights into the limitations of synthetic
text, as well as the importance of image curation with increasing training data
quantity.