ChatPaper.aiChatPaper

Expansion du benchmark FLORES+ pour davantage de paramètres à faibles ressources : Évaluation de la traduction automatique portugais-emakhuwa

Expanding FLORES+ Benchmark for more Low-Resource Settings: Portuguese-Emakhuwa Machine Translation Evaluation

August 21, 2024
Auteurs: Felermino D. M. Antonio Ali, Henrique Lopes Cardoso, Rui Sousa-Silva
cs.AI

Résumé

Dans le cadre des tâches partagées de l'Initiative Open Language Data, nous avons étendu l'ensemble d'évaluation FLORES+ pour inclure l'Emakhuwa, une langue à faibles ressources largement parlée au Mozambique. Nous avons traduit les ensembles dev et devtest du portugais vers l'Emakhuwa, et nous détaillons le processus de traduction et les mesures d'assurance qualité utilisées. Notre méthodologie a impliqué divers contrôles de qualité, y compris des éditions post-traductionnelles et des évaluations d'adéquation. Les ensembles de données résultants se composent de plusieurs phrases de référence pour chaque source. Nous présentons les résultats de base de l'entraînement d'un système de traduction neuronale et du réglage fin des modèles de traduction multilingues existants. Nos résultats suggèrent que les incohérences orthographiques restent un défi en Emakhuwa. De plus, les modèles de base ont sous-performé sur cet ensemble d'évaluation, soulignant la nécessité de poursuivre la recherche pour améliorer la qualité de la traduction automatique en Emakhuwa. Les données sont disponibles publiquement sur https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.
English
As part of the Open Language Data Initiative shared tasks, we have expanded the FLORES+ evaluation set to include Emakhuwa, a low-resource language widely spoken in Mozambique. We translated the dev and devtest sets from Portuguese into Emakhuwa, and we detail the translation process and quality assurance measures used. Our methodology involved various quality checks, including post-editing and adequacy assessments. The resulting datasets consist of multiple reference sentences for each source. We present baseline results from training a Neural Machine Translation system and fine-tuning existing multilingual translation models. Our findings suggest that spelling inconsistencies remain a challenge in Emakhuwa. Additionally, the baseline models underperformed on this evaluation set, underscoring the necessity for further research to enhance machine translation quality for Emakhuwa. The data is publicly available at https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.

Summary

AI-Generated Summary

PDF41November 16, 2024