ChatPaper.aiChatPaper

Uitbreiding van de FLORES+ Benchmark voor meer Low-Resource Instellingen: Evaluatie van Machinevertaling voor Portugees-Emakhuwa

Expanding FLORES+ Benchmark for more Low-Resource Settings: Portuguese-Emakhuwa Machine Translation Evaluation

August 21, 2024
Auteurs: Felermino D. M. Antonio Ali, Henrique Lopes Cardoso, Rui Sousa-Silva
cs.AI

Samenvatting

Als onderdeel van de gedeelde taken van het Open Language Data Initiative hebben we de FLORES+ evaluatieset uitgebreid met Emakhuwa, een taal met beperkte bronnen die veel wordt gesproken in Mozambique. We hebben de dev- en devtest-sets vertaald van Portugees naar Emakhuwa, en we beschrijven het vertaalproces en de kwaliteitsborgingsmaatregelen die zijn gebruikt. Onze methodologie omvatte diverse kwaliteitscontroles, waaronder nabewerking en beoordelingen van adequaatheid. De resulterende datasets bestaan uit meerdere referentiezinnen voor elke bron. We presenteren basislijnresultaten van het trainen van een Neural Machine Translation-systeem en het finetunen van bestaande meertalige vertaalmodellen. Onze bevindingen suggereren dat spellinginconsistenties een uitdaging blijven in Emakhuwa. Daarnaast presteerden de basislijnmodellen onder de maat op deze evaluatieset, wat de noodzaak benadrukt van verder onderzoek om de kwaliteit van machinaal vertalen voor Emakhuwa te verbeteren. De data is publiekelijk beschikbaar op https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.
English
As part of the Open Language Data Initiative shared tasks, we have expanded the FLORES+ evaluation set to include Emakhuwa, a low-resource language widely spoken in Mozambique. We translated the dev and devtest sets from Portuguese into Emakhuwa, and we detail the translation process and quality assurance measures used. Our methodology involved various quality checks, including post-editing and adequacy assessments. The resulting datasets consist of multiple reference sentences for each source. We present baseline results from training a Neural Machine Translation system and fine-tuning existing multilingual translation models. Our findings suggest that spelling inconsistencies remain a challenge in Emakhuwa. Additionally, the baseline models underperformed on this evaluation set, underscoring the necessity for further research to enhance machine translation quality for Emakhuwa. The data is publicly available at https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.

Summary

AI-Generated Summary

PDF41November 16, 2024