Mise à l'échelle de la pré-entraînement à cent milliards de données pour les modèles de vision et de langage

papers.abstract

Nous menons une étude empirique du potentiel de pré-entraînement des modèles vision-langage à une échelle sans précédent : 100 milliards d'exemples. Nous constatons que les performances du modèle ont tendance à se saturer à cette échelle sur de nombreux benchmarks de classification et de recherche occidentaux courants, tels que COCO Captions. Néanmoins, les tâches de diversité culturelle bénéficient de gains plus importants à partir des données web à l'échelle des 100 milliards, grâce à sa couverture des concepts de longue traîne. De plus, nous analysons la multilinguisme du modèle et montrons des gains dans les langues à faibles ressources également. En outre, nous observons que la réduction de la taille de l'ensemble de données de pré-entraînement via des filtres de qualité comme l'utilisation de CLIP, généralement utilisés pour améliorer les performances, peut involontairement réduire la diversité culturelle représentée même dans des ensembles de données à grande échelle. Nos résultats soulignent que, bien que les benchmarks traditionnels ne bénéficient pas significativement de la mise à l'échelle des données web brutes et bruyantes à 100 milliards d'exemples, cette échelle de données est essentielle pour la construction de systèmes multimodaux vraiment inclusifs.

English

We provide an empirical investigation of the potential of pre-training vision-language models on an unprecedented scale: 100 billion examples. We find that model performance tends to saturate at this scale on many common Western-centric classification and retrieval benchmarks, such as COCO Captions. Nevertheless, tasks of cultural diversity achieve more substantial gains from the 100-billion scale web data, thanks to its coverage of long-tail concepts. Furthermore, we analyze the model's multilinguality and show gains in low-resource languages as well. In addition, we observe that reducing the size of the pretraining dataset via quality filters like using CLIP, typically used to enhance performance, may inadvertently reduce the cultural diversity represented even in large-scale datasets. Our results highlight that while traditional benchmarks may not benefit significantly from scaling noisy, raw web data to 100 billion examples, this data scale is vital for building truly inclusive multimodal systems.

Mise à l'échelle de la pré-entraînement à cent milliards de données pour les modèles de vision et de langage

Scaling Pre-training to One Hundred Billion Data for Vision Language Models

papers.abstract

Support