Expansão do Benchmark FLORES+ para mais Configurações de Baixo Recurso: Avaliação da Tradução Automática Português-Emacua.

Resumo

Como parte das tarefas compartilhadas da Iniciativa de Dados Linguísticos Abertos, expandimos o conjunto de avaliação FLORES+ para incluir o Emakhuwa, um idioma de baixos recursos amplamente falado em Moçambique. Traduzimos os conjuntos dev e devtest do português para o Emakhuwa e detalhamos o processo de tradução e as medidas de garantia de qualidade utilizadas. Nossa metodologia envolveu diversos controles de qualidade, incluindo revisões pós-edição e avaliações de adequação. Os conjuntos de dados resultantes consistem em várias frases de referência para cada origem. Apresentamos resultados básicos a partir do treinamento de um sistema de tradução neural e do ajuste fino de modelos de tradução multilíngue existentes. Nossas descobertas sugerem que inconsistências de ortografia continuam sendo um desafio no Emakhuwa. Além disso, os modelos básicos tiveram desempenho inferior neste conjunto de avaliação, destacando a necessidade de mais pesquisas para aprimorar a qualidade da tradução automática para o Emakhuwa. Os dados estão disponíveis publicamente em https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.

English

As part of the Open Language Data Initiative shared tasks, we have expanded the FLORES+ evaluation set to include Emakhuwa, a low-resource language widely spoken in Mozambique. We translated the dev and devtest sets from Portuguese into Emakhuwa, and we detail the translation process and quality assurance measures used. Our methodology involved various quality checks, including post-editing and adequacy assessments. The resulting datasets consist of multiple reference sentences for each source. We present baseline results from training a Neural Machine Translation system and fine-tuning existing multilingual translation models. Our findings suggest that spelling inconsistencies remain a challenge in Emakhuwa. Additionally, the baseline models underperformed on this evaluation set, underscoring the necessity for further research to enhance machine translation quality for Emakhuwa. The data is publicly available at https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.

Expansão do Benchmark FLORES+ para mais Configurações de Baixo Recurso: Avaliação da Tradução Automática Português-Emacua.

Expanding FLORES+ Benchmark for more Low-Resource Settings: Portuguese-Emakhuwa Machine Translation Evaluation

Resumo

Support