Shiksha: Um Conjunto de Dados e Modelo de Tradução Focado em Domínio Técnico para Línguas Indianas

Resumo

Os modelos de Tradução Neural (NMT) são tipicamente treinados em conjuntos de dados com exposição limitada aos domínios Científico, Técnico e Educacional. Os modelos de tradução, portanto, em geral, enfrentam dificuldades com tarefas que envolvem compreensão científica ou jargão técnico. Sua performance é ainda pior para idiomas indianos de baixo recurso. Encontrar um conjunto de dados de tradução que atenda a esses domínios em particular representa um desafio difícil. Neste artigo, abordamos essa questão criando um corpus paralelo multilíngue contendo mais de 2,8 milhões de pares de tradução de alta qualidade do inglês para idiomas indicativos e entre idiomas indicativos, abrangendo 8 idiomas indianos. Conseguimos isso minerando bitextos de transcrições traduzidas por humanos de palestras em vídeo da NPTEL. Também ajustamos e avaliamos modelos NMT usando esse corpus e superamos todos os outros modelos disponíveis publicamente em tarefas dentro do domínio. Demonstramos também o potencial de generalização para tarefas de tradução fora do domínio, melhorando a linha de base em mais de 2 pontos BLEU em média para esses idiomas indianos no benchmark Flores+. Temos o prazer de disponibilizar nosso modelo e conjunto de dados por meio deste link: https://huggingface.co/SPRINGLab.

English

Neural Machine Translation (NMT) models are typically trained on datasets with limited exposure to Scientific, Technical and Educational domains. Translation models thus, in general, struggle with tasks that involve scientific understanding or technical jargon. Their performance is found to be even worse for low-resource Indian languages. Finding a translation dataset that tends to these domains in particular, poses a difficult challenge. In this paper, we address this by creating a multilingual parallel corpus containing more than 2.8 million rows of English-to-Indic and Indic-to-Indic high-quality translation pairs across 8 Indian languages. We achieve this by bitext mining human-translated transcriptions of NPTEL video lectures. We also finetune and evaluate NMT models using this corpus and surpass all other publicly available models at in-domain tasks. We also demonstrate the potential for generalizing to out-of-domain translation tasks by improving the baseline by over 2 BLEU on average for these Indian languages on the Flores+ benchmark. We are pleased to release our model and dataset via this link: https://huggingface.co/SPRINGLab.

Shiksha: Um Conjunto de Dados e Modelo de Tradução Focado em Domínio Técnico para Línguas Indianas

Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages

Resumo

Support