Ein erschreckend großer Teil des Webs ist maschinell übersetzt: Erkenntnisse aus Mehrwege-Parallelität
A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism
January 11, 2024
Autoren: Brian Thompson, Mehak Preet Dhaliwal, Peter Frisch, Tobias Domhan, Marcello Federico
cs.AI
Zusammenfassung
Wir zeigen, dass Inhalte im Web häufig in viele Sprachen übersetzt werden, und die geringe Qualität dieser mehrsprachigen Übersetzungen deutet darauf hin, dass sie wahrscheinlich mithilfe von maschineller Übersetzung (MT) erstellt wurden. Mehrsprachige, maschinell generierte Inhalte dominieren nicht nur die Übersetzungen in ressourcenärmeren Sprachen; sie machen auch einen großen Teil der gesamten Webinhalte in diesen Sprachen aus. Wir finden auch Hinweise auf eine Auswahlverzerrung bei der Art von Inhalten, die in viele Sprachen übersetzt werden, was mit der massenhaften Übersetzung von qualitativ minderwertigen englischen Inhalten in viele ressourcenärmere Sprachen über MT übereinstimmt. Unsere Arbeit wirft ernsthafte Bedenken hinsichtlich des Trainings von Modellen wie mehrsprachigen großen Sprachmodellen auf sowohl einsprachigen als auch zweisprachigen Daten auf, die aus dem Web extrahiert wurden.
English
We show that content on the web is often translated into many languages, and
the low quality of these multi-way translations indicates they were likely
created using Machine Translation (MT). Multi-way parallel, machine generated
content not only dominates the translations in lower resource languages; it
also constitutes a large fraction of the total web content in those languages.
We also find evidence of a selection bias in the type of content which is
translated into many languages, consistent with low quality English content
being translated en masse into many lower resource languages, via MT. Our work
raises serious concerns about training models such as multilingual large
language models on both monolingual and bilingual data scraped from the web.