Mise à l'échelle de la pré-entraînement à cent milliards de données pour les modèles de vision et de langage
Scaling Pre-training to One Hundred Billion Data for Vision Language Models
February 11, 2025
Auteurs: Xiao Wang, Ibrahim Alabdulmohsin, Daniel Salz, Zhe Li, Keran Rong, Xiaohua Zhai
cs.AI
Résumé
Nous menons une étude empirique du potentiel de pré-entraînement des modèles vision-langage à une échelle sans précédent : 100 milliards d'exemples. Nous constatons que les performances du modèle ont tendance à se saturer à cette échelle sur de nombreux benchmarks de classification et de recherche occidentaux courants, tels que COCO Captions. Néanmoins, les tâches de diversité culturelle bénéficient de gains plus importants à partir des données web à l'échelle des 100 milliards, grâce à sa couverture des concepts de longue traîne. De plus, nous analysons la multilinguisme du modèle et montrons des gains dans les langues à faibles ressources également. En outre, nous observons que la réduction de la taille de l'ensemble de données de pré-entraînement via des filtres de qualité comme l'utilisation de CLIP, généralement utilisés pour améliorer les performances, peut involontairement réduire la diversité culturelle représentée même dans des ensembles de données à grande échelle. Nos résultats soulignent que, bien que les benchmarks traditionnels ne bénéficient pas significativement de la mise à l'échelle des données web brutes et bruyantes à 100 milliards d'exemples, cette échelle de données est essentielle pour la construction de systèmes multimodaux vraiment inclusifs.
English
We provide an empirical investigation of the potential of pre-training
vision-language models on an unprecedented scale: 100 billion examples. We find
that model performance tends to saturate at this scale on many common
Western-centric classification and retrieval benchmarks, such as COCO Captions.
Nevertheless, tasks of cultural diversity achieve more substantial gains from
the 100-billion scale web data, thanks to its coverage of long-tail concepts.
Furthermore, we analyze the model's multilinguality and show gains in
low-resource languages as well. In addition, we observe that reducing the size
of the pretraining dataset via quality filters like using CLIP, typically used
to enhance performance, may inadvertently reduce the cultural diversity
represented even in large-scale datasets. Our results highlight that while
traditional benchmarks may not benefit significantly from scaling noisy, raw
web data to 100 billion examples, this data scale is vital for building truly
inclusive multimodal systems.Summary
AI-Generated Summary