Erweiterung des FLORES+ Benchmarks für weitere Low-Resource-Einstellungen: Evaluation der maschinellen Übersetzung von Portugiesisch nach Emakhuwa

Zusammenfassung

Im Rahmen der geteilten Aufgaben der Open Language Data Initiative haben wir den FLORES+ Bewertungssatz erweitert, um Emakhuwa einzuschließen, eine wenig erforschte Sprache, die in Mosambik weit verbreitet gesprochen wird. Wir haben die dev- und devtest-Sätze aus dem Portugiesischen ins Emakhuwa übersetzt und den Übersetzungsprozess sowie die durchgeführten Qualitätskontrollmaßnahmen im Detail beschrieben. Unsere Methodik umfasste verschiedene Qualitätsprüfungen, einschließlich Post-Editing und Angemessenheitsbewertungen. Die resultierenden Datensätze bestehen aus mehreren Referenzsätzen für jede Quelle. Wir präsentieren Baseline-Ergebnisse aus dem Training eines Neuralen Maschinenübersetzungssystems und dem Feintuning bestehender mehrsprachiger Übersetzungsmodelle. Unsere Ergebnisse deuten darauf hin, dass Rechtschreibinkonsistenzen eine Herausforderung im Emakhuwa darstellen. Darüber hinaus schnitten die Baselinemodelle bei diesem Bewertungssatz schlechter ab, was die Notwendigkeit weiterer Forschung zur Verbesserung der Qualität der maschinellen Übersetzung für Emakhuwa unterstreicht. Die Daten sind öffentlich unter https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES verfügbar.

English

As part of the Open Language Data Initiative shared tasks, we have expanded the FLORES+ evaluation set to include Emakhuwa, a low-resource language widely spoken in Mozambique. We translated the dev and devtest sets from Portuguese into Emakhuwa, and we detail the translation process and quality assurance measures used. Our methodology involved various quality checks, including post-editing and adequacy assessments. The resulting datasets consist of multiple reference sentences for each source. We present baseline results from training a Neural Machine Translation system and fine-tuning existing multilingual translation models. Our findings suggest that spelling inconsistencies remain a challenge in Emakhuwa. Additionally, the baseline models underperformed on this evaluation set, underscoring the necessity for further research to enhance machine translation quality for Emakhuwa. The data is publicly available at https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.