ChatPaper.aiChatPaper

Ein erschreckend großer Teil des Webs ist maschinell übersetzt: Erkenntnisse aus Mehrwege-Parallelität

A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism

January 11, 2024
Autoren: Brian Thompson, Mehak Preet Dhaliwal, Peter Frisch, Tobias Domhan, Marcello Federico
cs.AI

Zusammenfassung

Wir zeigen, dass Inhalte im Web häufig in viele Sprachen übersetzt werden, und die geringe Qualität dieser mehrsprachigen Übersetzungen deutet darauf hin, dass sie wahrscheinlich mithilfe von maschineller Übersetzung (MT) erstellt wurden. Mehrsprachige, maschinell generierte Inhalte dominieren nicht nur die Übersetzungen in ressourcenärmeren Sprachen; sie machen auch einen großen Teil der gesamten Webinhalte in diesen Sprachen aus. Wir finden auch Hinweise auf eine Auswahlverzerrung bei der Art von Inhalten, die in viele Sprachen übersetzt werden, was mit der massenhaften Übersetzung von qualitativ minderwertigen englischen Inhalten in viele ressourcenärmere Sprachen über MT übereinstimmt. Unsere Arbeit wirft ernsthafte Bedenken hinsichtlich des Trainings von Modellen wie mehrsprachigen großen Sprachmodellen auf sowohl einsprachigen als auch zweisprachigen Daten auf, die aus dem Web extrahiert wurden.
English
We show that content on the web is often translated into many languages, and the low quality of these multi-way translations indicates they were likely created using Machine Translation (MT). Multi-way parallel, machine generated content not only dominates the translations in lower resource languages; it also constitutes a large fraction of the total web content in those languages. We also find evidence of a selection bias in the type of content which is translated into many languages, consistent with low quality English content being translated en masse into many lower resource languages, via MT. Our work raises serious concerns about training models such as multilingual large language models on both monolingual and bilingual data scraped from the web.
PDF100December 15, 2024