ChatPaper.aiChatPaper

웹의 충격적인 양이 기계 번역됨: 다중 병렬성 분석을 통한 통찰

A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism

January 11, 2024
저자: Brian Thompson, Mehak Preet Dhaliwal, Peter Frisch, Tobias Domhan, Marcello Federico
cs.AI

초록

웹상의 콘텐츠가 종종 여러 언어로 번역되며, 이러한 다중 언어 번역의 낮은 품질은 기계 번역(MT)을 통해 생성되었을 가능성이 높음을 보여줍니다. 다중 언어 병렬 기계 생성 콘텐츠는 저자원 언어에서의 번역을 주도할 뿐만 아니라, 해당 언어의 전체 웹 콘텐츠 중 상당 부분을 차지합니다. 또한, 다중 언어로 번역되는 콘텐츠 유형에 대한 선택 편향의 증거를 발견했는데, 이는 저품질 영어 콘텐츠가 기계 번역을 통해 다수의 저자원 언어로 대량 번역되는 현상과 일치합니다. 본 연구는 웹에서 수집된 단일 언어 및 이중 언어 데이터를 사용하여 다국어 대형 언어 모델과 같은 모델을 훈련하는 것에 대한 심각한 우려를 제기합니다.
English
We show that content on the web is often translated into many languages, and the low quality of these multi-way translations indicates they were likely created using Machine Translation (MT). Multi-way parallel, machine generated content not only dominates the translations in lower resource languages; it also constitutes a large fraction of the total web content in those languages. We also find evidence of a selection bias in the type of content which is translated into many languages, consistent with low quality English content being translated en masse into many lower resource languages, via MT. Our work raises serious concerns about training models such as multilingual large language models on both monolingual and bilingual data scraped from the web.
PDF100December 15, 2024