Ampliación del benchmark FLORES+ para más entornos de recursos limitados: Evaluación de traducción automática portugués-emakhua.
Expanding FLORES+ Benchmark for more Low-Resource Settings: Portuguese-Emakhuwa Machine Translation Evaluation
August 21, 2024
Autores: Felermino D. M. Antonio Ali, Henrique Lopes Cardoso, Rui Sousa-Silva
cs.AI
Resumen
Como parte de las tareas compartidas de la Iniciativa de Datos de Lenguaje Abierto, hemos ampliado el conjunto de evaluación FLORES+ para incluir Emakhuwa, un idioma de recursos limitados ampliamente hablado en Mozambique. Tradujimos los conjuntos dev y devtest del portugués al Emakhuwa, y detallamos el proceso de traducción y las medidas de garantía de calidad utilizadas. Nuestra metodología involucró varios controles de calidad, incluyendo edición posterior y evaluaciones de adecuación. Los conjuntos de datos resultantes consisten en múltiples oraciones de referencia para cada origen. Presentamos resultados base de entrenar un sistema de Traducción Automática Neural y ajustar modelos de traducción multilingüe existentes. Nuestros hallazgos sugieren que las inconsistencias de ortografía siguen siendo un desafío en Emakhuwa. Además, los modelos base tuvieron un rendimiento inferior en este conjunto de evaluación, subrayando la necesidad de más investigaciones para mejorar la calidad de la traducción automática para Emakhuwa. Los datos están disponibles públicamente en https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.
English
As part of the Open Language Data Initiative shared tasks, we have expanded
the FLORES+ evaluation set to include Emakhuwa, a low-resource language widely
spoken in Mozambique. We translated the dev and devtest sets from Portuguese
into Emakhuwa, and we detail the translation process and quality assurance
measures used. Our methodology involved various quality checks, including
post-editing and adequacy assessments. The resulting datasets consist of
multiple reference sentences for each source. We present baseline results from
training a Neural Machine Translation system and fine-tuning existing
multilingual translation models. Our findings suggest that spelling
inconsistencies remain a challenge in Emakhuwa. Additionally, the baseline
models underperformed on this evaluation set, underscoring the necessity for
further research to enhance machine translation quality for Emakhuwa. The data
is publicly available at https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.Summary
AI-Generated Summary