Erweiterung des FLORES+ Benchmarks für weitere Low-Resource-Einstellungen: Evaluation der maschinellen Übersetzung von Portugiesisch nach Emakhuwa
Expanding FLORES+ Benchmark for more Low-Resource Settings: Portuguese-Emakhuwa Machine Translation Evaluation
August 21, 2024
Autoren: Felermino D. M. Antonio Ali, Henrique Lopes Cardoso, Rui Sousa-Silva
cs.AI
Zusammenfassung
Im Rahmen der geteilten Aufgaben der Open Language Data Initiative haben wir den FLORES+ Bewertungssatz erweitert, um Emakhuwa einzuschließen, eine wenig erforschte Sprache, die in Mosambik weit verbreitet gesprochen wird. Wir haben die dev- und devtest-Sätze aus dem Portugiesischen ins Emakhuwa übersetzt und den Übersetzungsprozess sowie die durchgeführten Qualitätskontrollmaßnahmen im Detail beschrieben. Unsere Methodik umfasste verschiedene Qualitätsprüfungen, einschließlich Post-Editing und Angemessenheitsbewertungen. Die resultierenden Datensätze bestehen aus mehreren Referenzsätzen für jede Quelle. Wir präsentieren Baseline-Ergebnisse aus dem Training eines Neuralen Maschinenübersetzungssystems und dem Feintuning bestehender mehrsprachiger Übersetzungsmodelle. Unsere Ergebnisse deuten darauf hin, dass Rechtschreibinkonsistenzen eine Herausforderung im Emakhuwa darstellen. Darüber hinaus schnitten die Baselinemodelle bei diesem Bewertungssatz schlechter ab, was die Notwendigkeit weiterer Forschung zur Verbesserung der Qualität der maschinellen Übersetzung für Emakhuwa unterstreicht. Die Daten sind öffentlich unter https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES verfügbar.
English
As part of the Open Language Data Initiative shared tasks, we have expanded
the FLORES+ evaluation set to include Emakhuwa, a low-resource language widely
spoken in Mozambique. We translated the dev and devtest sets from Portuguese
into Emakhuwa, and we detail the translation process and quality assurance
measures used. Our methodology involved various quality checks, including
post-editing and adequacy assessments. The resulting datasets consist of
multiple reference sentences for each source. We present baseline results from
training a Neural Machine Translation system and fine-tuning existing
multilingual translation models. Our findings suggest that spelling
inconsistencies remain a challenge in Emakhuwa. Additionally, the baseline
models underperformed on this evaluation set, underscoring the necessity for
further research to enhance machine translation quality for Emakhuwa. The data
is publicly available at https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.Summary
AI-Generated Summary