mOSCAR: Um Corpus Multilíngue e Multimodal em Escala Documental de Grande Porte
mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus
June 13, 2024
Autores: Matthieu Futeral, Armel Zebaze, Pedro Ortiz Suarez, Julien Abadji, Rémi Lacroix, Cordelia Schmid, Rachel Bawden, Benoît Sagot
cs.AI
Resumo
Os Modelos de Linguagem Multimodais de Grande Escala (mLLMs) são treinados com uma grande quantidade de dados texto-imagem. Embora a maioria dos mLLMs seja treinada apenas com dados semelhantes a legendas, Alayrac et al. [2022] demonstraram que treiná-los adicionalmente com sequências intercaladas de texto e imagens pode levar ao surgimento de capacidades de aprendizado em contexto. No entanto, o conjunto de dados que eles usaram, o M3W, não é público e está disponível apenas em inglês. Houve tentativas de reproduzir seus resultados, mas os conjuntos de dados liberados são exclusivamente em inglês. Em contraste, os conjuntos de dados multilingues e multimodais atuais são compostos apenas por dados semelhantes a legendas, são de escala média ou totalmente privados. Isso limita a pesquisa em mLLMs para as outras 7.000 línguas faladas no mundo. Portanto, apresentamos o mOSCAR, que, até onde sabemos, é o primeiro corpus de documentos multilingue e multimodal em grande escala extraído da web. Ele abrange 163 idiomas, 315 milhões de documentos, 214 bilhões de tokens e 1,2 bilhão de imagens. Realizamos cuidadosamente um conjunto de etapas de filtragem e avaliação para garantir que o mOSCAR seja suficientemente seguro, diversificado e de boa qualidade. Além disso, treinamos dois tipos de modelo multilingue para comprovar os benefícios do mOSCAR: (1) um modelo treinado em um subconjunto do mOSCAR e dados de legendagem e (2) um modelo treinado apenas em dados de legendagem. O modelo adicionalmente treinado com o mOSCAR mostra um forte aumento no desempenho de aprendizado few-shot em várias tarefas e benchmarks multilingues de texto-imagem, confirmando descobertas anteriores para mLLMs exclusivamente em inglês.
English
Multimodal Large Language Models (mLLMs) are trained on a large amount of
text-image data. While most mLLMs are trained on caption-like data only,
Alayrac et al. [2022] showed that additionally training them on interleaved
sequences of text and images can lead to the emergence of in-context learning
capabilities. However, the dataset they used, M3W, is not public and is only in
English. There have been attempts to reproduce their results but the released
datasets are English-only. In contrast, current multilingual and multimodal
datasets are either composed of caption-like only or medium-scale or fully
private data. This limits mLLM research for the 7,000 other languages spoken in
the world. We therefore introduce mOSCAR, to the best of our knowledge the
first large-scale multilingual and multimodal document corpus crawled from the
web. It covers 163 languages, 315M documents, 214B tokens and 1.2B images. We
carefully conduct a set of filtering and evaluation steps to make sure mOSCAR
is sufficiently safe, diverse and of good quality. We additionally train two
types of multilingual model to prove the benefits of mOSCAR: (1) a model
trained on a subset of mOSCAR and captioning data and (2) a model train on
captioning data only. The model additionally trained on mOSCAR shows a strong
boost in few-shot learning performance across various multilingual image-text
tasks and benchmarks, confirming previous findings for English-only mLLMs.