Une Proportion Choquante du Web est Traduite par des Machines : Perspectives Tirées du Parallélisme Multidirectionnel
A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism
January 11, 2024
Auteurs: Brian Thompson, Mehak Preet Dhaliwal, Peter Frisch, Tobias Domhan, Marcello Federico
cs.AI
Résumé
Nous montrons que le contenu sur le web est souvent traduit dans de nombreuses langues, et la faible qualité de ces traductions multidirectionnelles suggère qu'elles ont probablement été créées à l'aide de la Traduction Automatique (TA). Le contenu parallèle multidirectionnel généré par machine ne domine pas seulement les traductions dans les langues moins dotées en ressources ; il constitue également une grande partie du contenu web total dans ces langues. Nous trouvons également des preuves d'un biais de sélection dans le type de contenu traduit dans de nombreuses langues, ce qui est cohérent avec l'idée que du contenu anglais de faible qualité est traduit en masse dans de nombreuses langues moins dotées via la TA. Notre travail soulève de sérieuses préoccupations concernant l'entraînement de modèles tels que les grands modèles de langage multilingues sur des données monolingues et bilingues extraites du web.
English
We show that content on the web is often translated into many languages, and
the low quality of these multi-way translations indicates they were likely
created using Machine Translation (MT). Multi-way parallel, machine generated
content not only dominates the translations in lower resource languages; it
also constitutes a large fraction of the total web content in those languages.
We also find evidence of a selection bias in the type of content which is
translated into many languages, consistent with low quality English content
being translated en masse into many lower resource languages, via MT. Our work
raises serious concerns about training models such as multilingual large
language models on both monolingual and bilingual data scraped from the web.