ChatPaper.aiChatPaper

Расширение набора данных FLORES+ для более низкоресурсных сред: Оценка машинного перевода с португальского на эмакхува

Expanding FLORES+ Benchmark for more Low-Resource Settings: Portuguese-Emakhuwa Machine Translation Evaluation

August 21, 2024
Авторы: Felermino D. M. Antonio Ali, Henrique Lopes Cardoso, Rui Sousa-Silva
cs.AI

Аннотация

В рамках задач, представленных в рамках Инициативы по открытым языковым данным, мы расширили набор оценочных данных FLORES+ для включения языка Эмакхува, малоресурсного языка, широко используемого в Мозамбике. Мы перевели наборы dev и devtest с португальского на язык Эмакхува и подробно описываем процесс перевода и использованные меры контроля качества. Наш метод включал различные проверки качества, включая постредактирование и оценку адекватности. Полученные наборы данных состоят из нескольких эталонных предложений для каждого исходного предложения. Мы представляем базовые результаты обучения системы нейронного машинного перевода и донастройки существующих мультиязычных моделей перевода. Наши результаты показывают, что несоответствия в написании остаются вызовом для языка Эмакхува. Кроме того, базовые модели показали недостаточную производительность на этом наборе оценки, подчеркивая необходимость дальнейших исследований для улучшения качества машинного перевода для языка Эмакхува. Данные доступны публично по адресу https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.
English
As part of the Open Language Data Initiative shared tasks, we have expanded the FLORES+ evaluation set to include Emakhuwa, a low-resource language widely spoken in Mozambique. We translated the dev and devtest sets from Portuguese into Emakhuwa, and we detail the translation process and quality assurance measures used. Our methodology involved various quality checks, including post-editing and adequacy assessments. The resulting datasets consist of multiple reference sentences for each source. We present baseline results from training a Neural Machine Translation system and fine-tuning existing multilingual translation models. Our findings suggest that spelling inconsistencies remain a challenge in Emakhuwa. Additionally, the baseline models underperformed on this evaluation set, underscoring the necessity for further research to enhance machine translation quality for Emakhuwa. The data is publicly available at https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.

Summary

AI-Generated Summary

PDF41November 16, 2024