MADLAD-400: 多言語ドキュメントレベル大規模監査済みデータセット
MADLAD-400: A Multilingual And Document-Level Large Audited Dataset
September 9, 2023
著者: Sneha Kudugunta, Isaac Caswell, Biao Zhang, Xavier Garcia, Christopher A. Choquette-Choo, Katherine Lee, Derrick Xin, Aditya Kusupati, Romi Stella, Ankur Bapna, Orhan Firat
cs.AI
要旨
私たちは、CommonCrawlを基にした419言語にわたる3Tトークンの一般領域単一言語データセットであるMADLAD-400を紹介します。このデータセットは手動で監査されており、自己監査によって明らかになった制限事項や、データ監査がデータセット作成プロセスにおいて果たした役割について議論します。次に、公開されているデータを用いて、450以上の言語をカバーする2500億トークンに基づく107億パラメータの多言語機械翻訳モデルをトレーニングし、リリースします。このモデルは、大幅に大規模なモデルと競合することを確認し、異なるドメインでの結果を報告します。さらに、80億パラメータの言語モデルをトレーニングし、少数ショット翻訳における結果を評価します。これらのベースラインモデルを研究コミュニティに公開します。
English
We introduce MADLAD-400, a manually audited, general domain 3T token
monolingual dataset based on CommonCrawl, spanning 419 languages. We discuss
the limitations revealed by self-auditing MADLAD-400, and the role data
auditing had in the dataset creation process. We then train and release a
10.7B-parameter multilingual machine translation model on 250 billion tokens
covering over 450 languages using publicly available data, and find that it is
competitive with models that are significantly larger, and report the results
on different domains. In addition, we train a 8B-parameter language model, and
assess the results on few-shot translation. We make the baseline models
available to the research community.