Shiksha: Um Conjunto de Dados e Modelo de Tradução Focado em Domínio Técnico para Línguas Indianas
Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages
December 12, 2024
Autores: Advait Joglekar, Srinivasan Umesh
cs.AI
Resumo
Os modelos de Tradução Neural (NMT) são tipicamente treinados em conjuntos de dados com exposição limitada aos domínios Científico, Técnico e Educacional. Os modelos de tradução, portanto, em geral, enfrentam dificuldades com tarefas que envolvem compreensão científica ou jargão técnico. Sua performance é ainda pior para idiomas indianos de baixo recurso. Encontrar um conjunto de dados de tradução que atenda a esses domínios em particular representa um desafio difícil. Neste artigo, abordamos essa questão criando um corpus paralelo multilíngue contendo mais de 2,8 milhões de pares de tradução de alta qualidade do inglês para idiomas indicativos e entre idiomas indicativos, abrangendo 8 idiomas indianos. Conseguimos isso minerando bitextos de transcrições traduzidas por humanos de palestras em vídeo da NPTEL. Também ajustamos e avaliamos modelos NMT usando esse corpus e superamos todos os outros modelos disponíveis publicamente em tarefas dentro do domínio. Demonstramos também o potencial de generalização para tarefas de tradução fora do domínio, melhorando a linha de base em mais de 2 pontos BLEU em média para esses idiomas indianos no benchmark Flores+. Temos o prazer de disponibilizar nosso modelo e conjunto de dados por meio deste link: https://huggingface.co/SPRINGLab.
English
Neural Machine Translation (NMT) models are typically trained on datasets
with limited exposure to Scientific, Technical and Educational domains.
Translation models thus, in general, struggle with tasks that involve
scientific understanding or technical jargon. Their performance is found to be
even worse for low-resource Indian languages. Finding a translation dataset
that tends to these domains in particular, poses a difficult challenge. In this
paper, we address this by creating a multilingual parallel corpus containing
more than 2.8 million rows of English-to-Indic and Indic-to-Indic high-quality
translation pairs across 8 Indian languages. We achieve this by bitext mining
human-translated transcriptions of NPTEL video lectures. We also finetune and
evaluate NMT models using this corpus and surpass all other publicly available
models at in-domain tasks. We also demonstrate the potential for generalizing
to out-of-domain translation tasks by improving the baseline by over 2 BLEU on
average for these Indian languages on the Flores+ benchmark. We are pleased to
release our model and dataset via this link: https://huggingface.co/SPRINGLab.Summary
AI-Generated Summary