Shiksha: Een technisch domeingericht vertaaldataset en model voor Indiase talen
Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages
December 12, 2024
Auteurs: Advait Joglekar, Srinivasan Umesh
cs.AI
Samenvatting
Neurale Machinevertaling (NMT) modellen worden doorgaans getraind op datasets met beperkte blootstelling aan wetenschappelijke, technische en educatieve domeinen. Vertaalmodellen hebben daarom over het algemeen moeite met taken die wetenschappelijk inzicht of technisch jargon vereisen. Hun prestaties blijken zelfs nog slechter te zijn voor laag-geresourceerde Indiase talen. Het vinden van een vertaaldataset die zich specifiek op deze domeinen richt, vormt een moeilijke uitdaging. In dit artikel pakken we dit aan door een meertalig parallel corpus te creëren met meer dan 2,8 miljoen rijen met hoogwaardige vertaalparen van Engels naar Indisch en van Indisch naar Indisch over 8 Indiase talen. We bereiken dit door bitext mining van menselijke vertaalde transcripties van NPTEL videolessen. We finetunen en evalueren ook NMT modellen met behulp van dit corpus en overtreffen alle andere publiekelijk beschikbare modellen bij taken binnen het domein. We tonen ook het potentieel aan voor generalisatie naar taken buiten het domein door de baseline met meer dan 2 BLEU gemiddeld te verbeteren voor deze Indiase talen op de Flores+ benchmark. We zijn verheugd om ons model en dataset vrij te geven via deze link: https://huggingface.co/SPRINGLab.
English
Neural Machine Translation (NMT) models are typically trained on datasets
with limited exposure to Scientific, Technical and Educational domains.
Translation models thus, in general, struggle with tasks that involve
scientific understanding or technical jargon. Their performance is found to be
even worse for low-resource Indian languages. Finding a translation dataset
that tends to these domains in particular, poses a difficult challenge. In this
paper, we address this by creating a multilingual parallel corpus containing
more than 2.8 million rows of English-to-Indic and Indic-to-Indic high-quality
translation pairs across 8 Indian languages. We achieve this by bitext mining
human-translated transcriptions of NPTEL video lectures. We also finetune and
evaluate NMT models using this corpus and surpass all other publicly available
models at in-domain tasks. We also demonstrate the potential for generalizing
to out-of-domain translation tasks by improving the baseline by over 2 BLEU on
average for these Indian languages on the Flores+ benchmark. We are pleased to
release our model and dataset via this link: https://huggingface.co/SPRINGLab.