Escalando el preentrenamiento a cien mil millones de datos para modelos de visión y lenguaje

Resumen

Realizamos una investigación empírica del potencial del preentrenamiento de modelos visión-lenguaje a una escala sin precedentes: 100 mil millones de ejemplos. Observamos que el rendimiento del modelo tiende a saturarse a esta escala en muchos benchmarks comunes de clasificación y recuperación centrados en occidente, como COCO Captions. Sin embargo, las tareas de diversidad cultural logran ganancias más sustanciales a partir de los datos web a escala de 100 mil millones, gracias a su cobertura de conceptos de larga cola. Además, analizamos la multilingüidad del modelo y mostramos mejoras en idiomas con recursos limitados. Asimismo, observamos que reducir el tamaño del conjunto de datos de preentrenamiento mediante filtros de calidad como el uso de CLIP, comúnmente utilizado para mejorar el rendimiento, puede reducir inadvertidamente la diversidad cultural representada incluso en conjuntos de datos a gran escala. Nuestros resultados resaltan que, si bien los benchmarks tradicionales pueden no beneficiarse significativamente de escalar datos web ruidosos y sin procesar a 100 mil millones de ejemplos, esta escala de datos es vital para construir sistemas multimodales verdaderamente inclusivos.

English

We provide an empirical investigation of the potential of pre-training vision-language models on an unprecedented scale: 100 billion examples. We find that model performance tends to saturate at this scale on many common Western-centric classification and retrieval benchmarks, such as COCO Captions. Nevertheless, tasks of cultural diversity achieve more substantial gains from the 100-billion scale web data, thanks to its coverage of long-tail concepts. Furthermore, we analyze the model's multilinguality and show gains in low-resource languages as well. In addition, we observe that reducing the size of the pretraining dataset via quality filters like using CLIP, typically used to enhance performance, may inadvertently reduce the cultural diversity represented even in large-scale datasets. Our results highlight that while traditional benchmarks may not benefit significantly from scaling noisy, raw web data to 100 billion examples, this data scale is vital for building truly inclusive multimodal systems.

Escalando el preentrenamiento a cien mil millones de datos para modelos de visión y lenguaje

Scaling Pre-training to One Hundred Billion Data for Vision Language Models

Resumen

Support