Escalando el preentrenamiento a cien mil millones de datos para modelos de visión y lenguaje
Scaling Pre-training to One Hundred Billion Data for Vision Language Models
February 11, 2025
Autores: Xiao Wang, Ibrahim Alabdulmohsin, Daniel Salz, Zhe Li, Keran Rong, Xiaohua Zhai
cs.AI
Resumen
Realizamos una investigación empírica del potencial del preentrenamiento de modelos visión-lenguaje a una escala sin precedentes: 100 mil millones de ejemplos. Observamos que el rendimiento del modelo tiende a saturarse a esta escala en muchos benchmarks comunes de clasificación y recuperación centrados en occidente, como COCO Captions. Sin embargo, las tareas de diversidad cultural logran ganancias más sustanciales a partir de los datos web a escala de 100 mil millones, gracias a su cobertura de conceptos de larga cola. Además, analizamos la multilingüidad del modelo y mostramos mejoras en idiomas con recursos limitados. Asimismo, observamos que reducir el tamaño del conjunto de datos de preentrenamiento mediante filtros de calidad como el uso de CLIP, comúnmente utilizado para mejorar el rendimiento, puede reducir inadvertidamente la diversidad cultural representada incluso en conjuntos de datos a gran escala. Nuestros resultados resaltan que, si bien los benchmarks tradicionales pueden no beneficiarse significativamente de escalar datos web ruidosos y sin procesar a 100 mil millones de ejemplos, esta escala de datos es vital para construir sistemas multimodales verdaderamente inclusivos.
English
We provide an empirical investigation of the potential of pre-training
vision-language models on an unprecedented scale: 100 billion examples. We find
that model performance tends to saturate at this scale on many common
Western-centric classification and retrieval benchmarks, such as COCO Captions.
Nevertheless, tasks of cultural diversity achieve more substantial gains from
the 100-billion scale web data, thanks to its coverage of long-tail concepts.
Furthermore, we analyze the model's multilinguality and show gains in
low-resource languages as well. In addition, we observe that reducing the size
of the pretraining dataset via quality filters like using CLIP, typically used
to enhance performance, may inadvertently reduce the cultural diversity
represented even in large-scale datasets. Our results highlight that while
traditional benchmarks may not benefit significantly from scaling noisy, raw
web data to 100 billion examples, this data scale is vital for building truly
inclusive multimodal systems.Summary
AI-Generated Summary