ウェブの驚くほどの部分が機械翻訳されている:多方向並列性からの洞察
A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism
January 11, 2024
著者: Brian Thompson, Mehak Preet Dhaliwal, Peter Frisch, Tobias Domhan, Marcello Federico
cs.AI
要旨
ウェブ上のコンテンツは、しばしば多数の言語に翻訳されていることがわかります。これらの多言語間翻訳の低品質さは、機械翻訳(MT)によって作成された可能性が高いことを示唆しています。多言語並列の機械生成コンテンツは、リソースの少ない言語における翻訳を支配しているだけでなく、それらの言語におけるウェブコンテンツ全体の大部分を占めています。また、多数の言語に翻訳されるコンテンツの種類には選択バイアスがある証拠も見つかりました。これは、低品質の英語コンテンツがMTを介して大量にリソースの少ない言語に翻訳されていることと一致しています。私たちの研究は、ウェブからスクレイピングされた単一言語および二言語データを用いて多言語大規模言語モデルなどのモデルを訓練することに対する重大な懸念を提起しています。
English
We show that content on the web is often translated into many languages, and
the low quality of these multi-way translations indicates they were likely
created using Machine Translation (MT). Multi-way parallel, machine generated
content not only dominates the translations in lower resource languages; it
also constitutes a large fraction of the total web content in those languages.
We also find evidence of a selection bias in the type of content which is
translated into many languages, consistent with low quality English content
being translated en masse into many lower resource languages, via MT. Our work
raises serious concerns about training models such as multilingual large
language models on both monolingual and bilingual data scraped from the web.