ChatPaper.aiChatPaper

Shiksha: Een technisch domeingericht vertaaldataset en model voor Indiase talen

Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages

December 12, 2024
Auteurs: Advait Joglekar, Srinivasan Umesh
cs.AI

Samenvatting

Neurale Machinevertaling (NMT) modellen worden doorgaans getraind op datasets met beperkte blootstelling aan wetenschappelijke, technische en educatieve domeinen. Vertaalmodellen hebben daarom over het algemeen moeite met taken die wetenschappelijk inzicht of technisch jargon vereisen. Hun prestaties blijken zelfs nog slechter te zijn voor laag-geresourceerde Indiase talen. Het vinden van een vertaaldataset die zich specifiek op deze domeinen richt, vormt een moeilijke uitdaging. In dit artikel pakken we dit aan door een meertalig parallel corpus te creëren met meer dan 2,8 miljoen rijen met hoogwaardige vertaalparen van Engels naar Indisch en van Indisch naar Indisch over 8 Indiase talen. We bereiken dit door bitext mining van menselijke vertaalde transcripties van NPTEL videolessen. We finetunen en evalueren ook NMT modellen met behulp van dit corpus en overtreffen alle andere publiekelijk beschikbare modellen bij taken binnen het domein. We tonen ook het potentieel aan voor generalisatie naar taken buiten het domein door de baseline met meer dan 2 BLEU gemiddeld te verbeteren voor deze Indiase talen op de Flores+ benchmark. We zijn verheugd om ons model en dataset vrij te geven via deze link: https://huggingface.co/SPRINGLab.
English
Neural Machine Translation (NMT) models are typically trained on datasets with limited exposure to Scientific, Technical and Educational domains. Translation models thus, in general, struggle with tasks that involve scientific understanding or technical jargon. Their performance is found to be even worse for low-resource Indian languages. Finding a translation dataset that tends to these domains in particular, poses a difficult challenge. In this paper, we address this by creating a multilingual parallel corpus containing more than 2.8 million rows of English-to-Indic and Indic-to-Indic high-quality translation pairs across 8 Indian languages. We achieve this by bitext mining human-translated transcriptions of NPTEL video lectures. We also finetune and evaluate NMT models using this corpus and surpass all other publicly available models at in-domain tasks. We also demonstrate the potential for generalizing to out-of-domain translation tasks by improving the baseline by over 2 BLEU on average for these Indian languages on the Flores+ benchmark. We are pleased to release our model and dataset via this link: https://huggingface.co/SPRINGLab.
PDF42December 13, 2024