mOSCAR : Un corpus multilingue et multimodal à l'échelle documentaire de grande envergure
mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus
June 13, 2024
Auteurs: Matthieu Futeral, Armel Zebaze, Pedro Ortiz Suarez, Julien Abadji, Rémi Lacroix, Cordelia Schmid, Rachel Bawden, Benoît Sagot
cs.AI
Résumé
Les modèles de langage multimodaux de grande échelle (mLLMs) sont entraînés sur une grande quantité de données texte-image. Bien que la plupart des mLLMs soient entraînés uniquement sur des données de type légende, Alayrac et al. [2022] ont montré qu'un entraînement supplémentaire sur des séquences entrelacées de texte et d'images peut conduire à l'émergence de capacités d'apprentissage en contexte. Cependant, le jeu de données qu'ils ont utilisé, M3W, n'est pas public et est uniquement en anglais. Des tentatives ont été faites pour reproduire leurs résultats, mais les jeux de données publiés sont exclusivement en anglais. En revanche, les jeux de données multilingues et multimodaux actuels sont soit composés uniquement de données de type légende, soit de taille moyenne, soit entièrement privés. Cela limite la recherche sur les mLLMs pour les 7 000 autres langues parlées dans le monde. Nous introduisons donc mOSCAR, à notre connaissance le premier corpus de documents multilingues et multimodaux de grande échelle extrait du web. Il couvre 163 langues, 315 millions de documents, 214 milliards de tokens et 1,2 milliard d'images. Nous effectuons soigneusement une série d'étapes de filtrage et d'évaluation pour nous assurer que mOSCAR est suffisamment sûr, diversifié et de bonne qualité. Nous entraînons en outre deux types de modèles multilingues pour prouver les avantages de mOSCAR : (1) un modèle entraîné sur un sous-ensemble de mOSCAR et des données de légende, et (2) un modèle entraîné uniquement sur des données de légende. Le modèle supplémentairement entraîné sur mOSCAR montre une forte amélioration des performances en apprentissage few-shot sur diverses tâches et benchmarks multilingues texte-image, confirmant ainsi les résultats précédents pour les mLLMs exclusivement en anglais.
English
Multimodal Large Language Models (mLLMs) are trained on a large amount of
text-image data. While most mLLMs are trained on caption-like data only,
Alayrac et al. [2022] showed that additionally training them on interleaved
sequences of text and images can lead to the emergence of in-context learning
capabilities. However, the dataset they used, M3W, is not public and is only in
English. There have been attempts to reproduce their results but the released
datasets are English-only. In contrast, current multilingual and multimodal
datasets are either composed of caption-like only or medium-scale or fully
private data. This limits mLLM research for the 7,000 other languages spoken in
the world. We therefore introduce mOSCAR, to the best of our knowledge the
first large-scale multilingual and multimodal document corpus crawled from the
web. It covers 163 languages, 315M documents, 214B tokens and 1.2B images. We
carefully conduct a set of filtering and evaluation steps to make sure mOSCAR
is sufficiently safe, diverse and of good quality. We additionally train two
types of multilingual model to prove the benefits of mOSCAR: (1) a model
trained on a subset of mOSCAR and captioning data and (2) a model train on
captioning data only. The model additionally trained on mOSCAR shows a strong
boost in few-shot learning performance across various multilingual image-text
tasks and benchmarks, confirming previous findings for English-only mLLMs.Summary
AI-Generated Summary