ChatPaper.aiChatPaper

더 많은 저자원 환경을 위한 FLORES+ 벤치마크 확장: 포르투갈어-에마쿠와 언어 쌍 기계 번역 평가

Expanding FLORES+ Benchmark for more Low-Resource Settings: Portuguese-Emakhuwa Machine Translation Evaluation

August 21, 2024
저자: Felermino D. M. Antonio Ali, Henrique Lopes Cardoso, Rui Sousa-Silva
cs.AI

초록

오픈 언어 데이터 이니셔티브 공유 작업의 일환으로, 우리는 FLORES+ 평가 세트를 확장하여 모잠비크에서 널리 사용되는 저자원 언어인 에마쿠와어를 포함시켰습니다. 우리는 포르투갈어에서 에마쿠와어로 dev 및 devtest 세트를 번역했으며, 번역 과정과 품질 보증 조치를 상세히 설명합니다. 우리의 방법론은 포스트-편집 및 적합성 평가를 포함한 다양한 품질 점검을 수반했습니다. 결과 데이터셋은 각 소스에 대해 여러 참조 문장을 포함하고 있습니다. 우리는 신경 기계 번역 시스템을 훈련하고 기존 다국어 번역 모델을 세밀하게 조정하여 베이스라인 결과를 제시합니다. 우리의 연구 결과는 에마쿠와어에서 철자 불일치가 여전히 과제임을 시사합니다. 게다가, 베이스라인 모델은 이 평가 세트에서 성능이 낮았으며, 에마쿠와어의 기계 번역 품질을 향상시키기 위해 추가 연구가 필요함을 강조합니다. 데이터는 https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES 에서 공개적으로 이용 가능합니다.
English
As part of the Open Language Data Initiative shared tasks, we have expanded the FLORES+ evaluation set to include Emakhuwa, a low-resource language widely spoken in Mozambique. We translated the dev and devtest sets from Portuguese into Emakhuwa, and we detail the translation process and quality assurance measures used. Our methodology involved various quality checks, including post-editing and adequacy assessments. The resulting datasets consist of multiple reference sentences for each source. We present baseline results from training a Neural Machine Translation system and fine-tuning existing multilingual translation models. Our findings suggest that spelling inconsistencies remain a challenge in Emakhuwa. Additionally, the baseline models underperformed on this evaluation set, underscoring the necessity for further research to enhance machine translation quality for Emakhuwa. The data is publicly available at https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.

Summary

AI-Generated Summary

PDF41November 16, 2024