ChatPaper.aiChatPaper

Shiksha: un conjunto de datos y modelo de traducción centrado en el dominio técnico para idiomas indios.

Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages

December 12, 2024
Autores: Advait Joglekar, Srinivasan Umesh
cs.AI

Resumen

Los modelos de Traducción Automática Neural (NMT, por sus siglas en inglés) suelen entrenarse en conjuntos de datos con exposición limitada a dominios Científicos, Técnicos y Educativos. Por lo tanto, en general, los modelos de traducción enfrentan dificultades con tareas que implican comprensión científica o jerga técnica. Se ha observado que su rendimiento es aún peor para los idiomas indios de recursos limitados. Encontrar un conjunto de datos de traducción que se centre en estos dominios en particular representa un desafío difícil. En este artículo, abordamos este problema creando un corpus paralelo multilingüe que contiene más de 2.8 millones de filas de pares de traducción de alta calidad del inglés al indio y del indio al indio en 8 idiomas indios. Logramos esto mediante la minería de bitextos de transcripciones traducidas por humanos de conferencias en video de NPTEL. También ajustamos y evaluamos los modelos NMT utilizando este corpus y superamos a todos los demás modelos disponibles públicamente en tareas dentro del dominio. Además, demostramos el potencial de generalización a tareas de traducción fuera del dominio al mejorar la línea base en más de 2 BLEU en promedio para estos idiomas indios en el benchmark Flores+. Nos complace compartir nuestro modelo y conjunto de datos a través de este enlace: https://huggingface.co/SPRINGLab.
English
Neural Machine Translation (NMT) models are typically trained on datasets with limited exposure to Scientific, Technical and Educational domains. Translation models thus, in general, struggle with tasks that involve scientific understanding or technical jargon. Their performance is found to be even worse for low-resource Indian languages. Finding a translation dataset that tends to these domains in particular, poses a difficult challenge. In this paper, we address this by creating a multilingual parallel corpus containing more than 2.8 million rows of English-to-Indic and Indic-to-Indic high-quality translation pairs across 8 Indian languages. We achieve this by bitext mining human-translated transcriptions of NPTEL video lectures. We also finetune and evaluate NMT models using this corpus and surpass all other publicly available models at in-domain tasks. We also demonstrate the potential for generalizing to out-of-domain translation tasks by improving the baseline by over 2 BLEU on average for these Indian languages on the Flores+ benchmark. We are pleased to release our model and dataset via this link: https://huggingface.co/SPRINGLab.

Summary

AI-Generated Summary

PDF42December 13, 2024