ChatPaper.aiChatPaper

mOSCAR: 대규모 다국어 및 다중모드 문서 수준 코퍼스

mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus

June 13, 2024
저자: Matthieu Futeral, Armel Zebaze, Pedro Ortiz Suarez, Julien Abadji, Rémi Lacroix, Cordelia Schmid, Rachel Bawden, Benoît Sagot
cs.AI

초록

멀티모달 대형 언어 모델(mLLMs)은 대량의 텍스트-이미지 데이터로 학습됩니다. 대부분의 mLLM은 캡션 형태의 데이터만으로 학습되지만, Alayrac 등[2022]은 텍스트와 이미지가 교차된 시퀀스를 추가로 학습시키면 컨텍스트 내 학습 능력이 발현될 수 있음을 보여주었습니다. 그러나 그들이 사용한 데이터셋인 M3W는 공개되지 않았으며 영어로만 구성되어 있습니다. 이들의 결과를 재현하려는 시도가 있었지만, 공개된 데이터셋들은 영어로만 제공되었습니다. 반면, 현재의 다국어 및 멀티모달 데이터셋은 캡션 형태로만 구성되거나 중간 규모이거나 완전히 비공개 데이터입니다. 이는 전 세계에서 사용되는 7,000여 개의 다른 언어에 대한 mLLM 연구를 제한합니다. 따라서 우리는 mOSCAR를 소개합니다. 우리가 아는 한, 웹에서 크롤링된 최초의 대규모 다국어 및 멀티모달 문서 코퍼스입니다. 이는 163개 언어, 3억 1,500만 개 문서, 2,140억 개 토큰 및 12억 개 이미지를 포함합니다. 우리는 mOSCAR가 충분히 안전하고 다양하며 양질의 데이터인지 확인하기 위해 일련의 필터링 및 평가 단계를 신중하게 수행했습니다. 또한 mOSCAR의 이점을 입증하기 위해 두 가지 유형의 다국어 모델을 학습시켰습니다: (1) mOSCAR의 일부와 캡션 데이터로 학습된 모델과 (2) 캡션 데이터만으로 학습된 모델입니다. mOSCAR를 추가로 학습한 모델은 다양한 다국어 이미지-텍스트 작업 및 벤치마크에서 강력한 퓨샷 학습 성능 향상을 보여주며, 이는 영어 전용 mLLM에 대한 이전 연구 결과를 확인시켜 줍니다.
English
Multimodal Large Language Models (mLLMs) are trained on a large amount of text-image data. While most mLLMs are trained on caption-like data only, Alayrac et al. [2022] showed that additionally training them on interleaved sequences of text and images can lead to the emergence of in-context learning capabilities. However, the dataset they used, M3W, is not public and is only in English. There have been attempts to reproduce their results but the released datasets are English-only. In contrast, current multilingual and multimodal datasets are either composed of caption-like only or medium-scale or fully private data. This limits mLLM research for the 7,000 other languages spoken in the world. We therefore introduce mOSCAR, to the best of our knowledge the first large-scale multilingual and multimodal document corpus crawled from the web. It covers 163 languages, 315M documents, 214B tokens and 1.2B images. We carefully conduct a set of filtering and evaluation steps to make sure mOSCAR is sufficiently safe, diverse and of good quality. We additionally train two types of multilingual model to prove the benefits of mOSCAR: (1) a model trained on a subset of mOSCAR and captioning data and (2) a model train on captioning data only. The model additionally trained on mOSCAR shows a strong boost in few-shot learning performance across various multilingual image-text tasks and benchmarks, confirming previous findings for English-only mLLMs.

Summary

AI-Generated Summary

PDF164December 6, 2024