MADLAD-400: 다국어 및 문서 수준 대규모 검증 데이터셋
MADLAD-400: A Multilingual And Document-Level Large Audited Dataset
September 9, 2023
저자: Sneha Kudugunta, Isaac Caswell, Biao Zhang, Xavier Garcia, Christopher A. Choquette-Choo, Katherine Lee, Derrick Xin, Aditya Kusupati, Romi Stella, Ankur Bapna, Orhan Firat
cs.AI
초록
우리는 CommonCrawl을 기반으로 419개 언어를 아우르는 3T 토큰 규모의 일반 도메인 단일 언어 데이터셋인 MADLAD-400을 소개한다. 이 데이터셋은 수동으로 감사(manually audited)되었으며, 우리는 자체 감사 과정에서 드러난 MADLAD-400의 한계와 데이터 감사가 데이터셋 생성 과정에서 수행한 역할에 대해 논의한다. 이후, 공개적으로 이용 가능한 데이터를 사용하여 450개 이상의 언어를 포함하는 2500억 토큰으로 107억 파라미터 규모의 다국어 기계 번역 모델을 학습시키고 공개한다. 이 모델은 훨씬 더 큰 규모의 모델들과 경쟁력을 보이며, 다양한 도메인에서의 결과를 보고한다. 추가적으로, 80억 파라미터 규모의 언어 모델을 학습시키고, 소수 샷(few-shot) 번역에서의 결과를 평가한다. 우리는 이러한 베이스라인 모델들을 연구 커뮤니티에 공개한다.
English
We introduce MADLAD-400, a manually audited, general domain 3T token
monolingual dataset based on CommonCrawl, spanning 419 languages. We discuss
the limitations revealed by self-auditing MADLAD-400, and the role data
auditing had in the dataset creation process. We then train and release a
10.7B-parameter multilingual machine translation model on 250 billion tokens
covering over 450 languages using publicly available data, and find that it is
competitive with models that are significantly larger, and report the results
on different domains. In addition, we train a 8B-parameter language model, and
assess the results on few-shot translation. We make the baseline models
available to the research community.