Shiksha : un ensemble de données et un modèle de traduction axés sur le domaine technique pour les langues indiennes
Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages
December 12, 2024
Auteurs: Advait Joglekar, Srinivasan Umesh
cs.AI
Résumé
Les modèles de traduction neuronale (NMT) sont généralement entraînés sur des ensembles de données avec une exposition limitée aux domaines scientifiques, techniques et éducatifs. Les modèles de traduction ont donc généralement du mal avec les tâches impliquant une compréhension scientifique ou un jargon technique. Leur performance est même pire pour les langues indiennes à faibles ressources. Trouver un ensemble de données de traduction adapté à ces domaines en particulier représente un défi difficile. Dans cet article, nous abordons ce problème en créant un corpus parallèle multilingue contenant plus de 2,8 millions de lignes de paires de traduction de haute qualité de l'anglais vers l'indo-aryen et de l'indo-aryen vers l'indo-aryen à travers 8 langues indiennes. Nous parvenons à cela en extrayant des textes bilingues à partir des transcriptions traduites par des humains des conférences vidéo NPTEL. Nous affinons également et évaluons des modèles NMT en utilisant ce corpus et surpassons tous les autres modèles disponibles publiquement pour les tâches dans le domaine. Nous démontrons également le potentiel de généralisation aux tâches de traduction hors domaine en améliorant la référence de plus de 2 BLEU en moyenne pour ces langues indiennes sur le banc d'essai Flores+. Nous sommes heureux de rendre notre modèle et notre ensemble de données disponibles via ce lien : https://huggingface.co/SPRINGLab.
English
Neural Machine Translation (NMT) models are typically trained on datasets
with limited exposure to Scientific, Technical and Educational domains.
Translation models thus, in general, struggle with tasks that involve
scientific understanding or technical jargon. Their performance is found to be
even worse for low-resource Indian languages. Finding a translation dataset
that tends to these domains in particular, poses a difficult challenge. In this
paper, we address this by creating a multilingual parallel corpus containing
more than 2.8 million rows of English-to-Indic and Indic-to-Indic high-quality
translation pairs across 8 Indian languages. We achieve this by bitext mining
human-translated transcriptions of NPTEL video lectures. We also finetune and
evaluate NMT models using this corpus and surpass all other publicly available
models at in-domain tasks. We also demonstrate the potential for generalizing
to out-of-domain translation tasks by improving the baseline by over 2 BLEU on
average for these Indian languages on the Flores+ benchmark. We are pleased to
release our model and dataset via this link: https://huggingface.co/SPRINGLab.Summary
AI-Generated Summary