ChatPaper.aiChatPaper

Shiksha : un ensemble de données et un modèle de traduction axés sur le domaine technique pour les langues indiennes

Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages

December 12, 2024
Auteurs: Advait Joglekar, Srinivasan Umesh
cs.AI

Résumé

Les modèles de traduction neuronale (NMT) sont généralement entraînés sur des ensembles de données avec une exposition limitée aux domaines scientifiques, techniques et éducatifs. Les modèles de traduction ont donc généralement du mal avec les tâches impliquant une compréhension scientifique ou un jargon technique. Leur performance est même pire pour les langues indiennes à faibles ressources. Trouver un ensemble de données de traduction adapté à ces domaines en particulier représente un défi difficile. Dans cet article, nous abordons ce problème en créant un corpus parallèle multilingue contenant plus de 2,8 millions de lignes de paires de traduction de haute qualité de l'anglais vers l'indo-aryen et de l'indo-aryen vers l'indo-aryen à travers 8 langues indiennes. Nous parvenons à cela en extrayant des textes bilingues à partir des transcriptions traduites par des humains des conférences vidéo NPTEL. Nous affinons également et évaluons des modèles NMT en utilisant ce corpus et surpassons tous les autres modèles disponibles publiquement pour les tâches dans le domaine. Nous démontrons également le potentiel de généralisation aux tâches de traduction hors domaine en améliorant la référence de plus de 2 BLEU en moyenne pour ces langues indiennes sur le banc d'essai Flores+. Nous sommes heureux de rendre notre modèle et notre ensemble de données disponibles via ce lien : https://huggingface.co/SPRINGLab.
English
Neural Machine Translation (NMT) models are typically trained on datasets with limited exposure to Scientific, Technical and Educational domains. Translation models thus, in general, struggle with tasks that involve scientific understanding or technical jargon. Their performance is found to be even worse for low-resource Indian languages. Finding a translation dataset that tends to these domains in particular, poses a difficult challenge. In this paper, we address this by creating a multilingual parallel corpus containing more than 2.8 million rows of English-to-Indic and Indic-to-Indic high-quality translation pairs across 8 Indian languages. We achieve this by bitext mining human-translated transcriptions of NPTEL video lectures. We also finetune and evaluate NMT models using this corpus and surpass all other publicly available models at in-domain tasks. We also demonstrate the potential for generalizing to out-of-domain translation tasks by improving the baseline by over 2 BLEU on average for these Indian languages on the Flores+ benchmark. We are pleased to release our model and dataset via this link: https://huggingface.co/SPRINGLab.

Summary

AI-Generated Summary

PDF42December 13, 2024