ChatPaper.aiChatPaper

Ampliamento del Benchmark FLORES+ per Ambienti con Meno Risorse: Valutazione della Traduzione Automatica Portoghese-Emakhuwa

Expanding FLORES+ Benchmark for more Low-Resource Settings: Portuguese-Emakhuwa Machine Translation Evaluation

August 21, 2024
Autori: Felermino D. M. Antonio Ali, Henrique Lopes Cardoso, Rui Sousa-Silva
cs.AI

Abstract

Nell'ambito delle attività condivise dell'Open Language Data Initiative, abbiamo ampliato il set di valutazione FLORES+ includendo l'Emakhuwa, una lingua a bassa risorsa ampiamente parlata in Mozambico. Abbiamo tradotto i set dev e devtest dal portoghese all'Emakhuwa, descrivendo nel dettaglio il processo di traduzione e le misure di garanzia della qualità adottate. La nostra metodologia ha incluso vari controlli di qualità, tra cui post-editing e valutazioni di adeguatezza. I dataset risultanti consistono in più frasi di riferimento per ciascuna frase sorgente. Presentiamo i risultati di base ottenuti addestrando un sistema di Neural Machine Translation e ottimizzando modelli di traduzione multilingue esistenti. I nostri risultati suggeriscono che le inconsistenze ortografiche rimangono una sfida per l'Emakhuwa. Inoltre, i modelli di base hanno ottenuto prestazioni inferiori su questo set di valutazione, evidenziando la necessità di ulteriori ricerche per migliorare la qualità della traduzione automatica per l'Emakhuwa. I dati sono pubblicamente disponibili all'indirizzo https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.
English
As part of the Open Language Data Initiative shared tasks, we have expanded the FLORES+ evaluation set to include Emakhuwa, a low-resource language widely spoken in Mozambique. We translated the dev and devtest sets from Portuguese into Emakhuwa, and we detail the translation process and quality assurance measures used. Our methodology involved various quality checks, including post-editing and adequacy assessments. The resulting datasets consist of multiple reference sentences for each source. We present baseline results from training a Neural Machine Translation system and fine-tuning existing multilingual translation models. Our findings suggest that spelling inconsistencies remain a challenge in Emakhuwa. Additionally, the baseline models underperformed on this evaluation set, underscoring the necessity for further research to enhance machine translation quality for Emakhuwa. The data is publicly available at https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.
PDF41November 16, 2024