ChatPaper.aiChatPaper

Mutarjim: Fortschritt in der bidirektionalen Arabisch-Englisch-Übersetzung mit einem kleinen Sprachmodell

Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model

May 23, 2025
Autoren: Khalil Hennara, Muhammad Hreden, Mohamed Motaism Hamed, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
cs.AI

Zusammenfassung

Wir stellen Mutarjim vor, ein kompaktes, aber leistungsstarkes Sprachmodell für die bidirektionale arabisch-englische Übersetzung. Während großskalige LLMs beeindruckende Fortschritte bei Aufgaben der natürlichen Sprachverarbeitung, einschließlich maschineller Übersetzung, gezeigt haben, haben auch kleinere Modelle Potenzial. Basierend auf dieser Erkenntnis entwickelten wir Mutarjim auf der Grundlage von Kuwain-1.5B, einem Sprachmodell, das speziell für Arabisch und Englisch optimiert ist. Trotz seiner bescheidenen Größe übertrifft Mutarjim viel größere Modelle in mehreren etablierten Benchmarks, was durch einen optimierten zweiphasigen Trainingsansatz und einen sorgfältig kuratierten, hochwertigen Trainingskorpus erreicht wird. Experimentelle Ergebnisse zeigen, dass Mutarjim mit Modellen konkurriert, die bis zu 20-mal größer sind, und dabei die Rechenkosten und Trainingsanforderungen erheblich reduziert. Wir stellen außerdem Tarjama-25 vor, einen neuen Benchmark, der die Einschränkungen bestehender arabisch-englischer Benchmarking-Datensätze wie Domänenengpässe, kurze Satzlängen und eine englisch-quellenbasierte Verzerrung überwinden soll. Tarjama-25 umfasst 5.000 von Experten überprüfte Satzpaare und deckt ein breites Spektrum von Domänen ab, wodurch ein umfassenderes und ausgewogeneres Bewertungsframework geboten wird. Bemerkenswerterweise erzielt Mutarjim auf der Aufgabe Englisch-zu-Arabisch in Tarjama-25 Spitzenleistungen und übertrifft sogar deutlich größere und proprietäre Modelle wie GPT-4o mini. Wir veröffentlichen Tarjama-25 öffentlich, um zukünftige Forschung zu unterstützen und die Bewertung arabisch-englischer Übersetzungssysteme voranzutreiben.
English
We introduce Mutarjim, a compact yet powerful language model for bidirectional Arabic-English translation. While large-scale LLMs have shown impressive progress in natural language processing tasks, including machine translation, smaller models. Leveraging this insight, we developed Mutarjim based on Kuwain-1.5B , a language model tailored for both Arabic and English. Despite its modest size, Mutarjim outperforms much larger models on several established benchmarks, achieved through an optimized two-phase training approach and a carefully curated, high-quality training corpus.. Experimental results show that Mutarjim rivals models up to 20 times larger while significantly reducing computational costs and training requirements. We also introduce Tarjama-25, a new benchmark designed to overcome limitations in existing Arabic-English benchmarking datasets, such as domain narrowness, short sentence lengths, and English-source bias. Tarjama-25 comprises 5,000 expert-reviewed sentence pairs and spans a wide range of domains, offering a more comprehensive and balanced evaluation framework. Notably, Mutarjim achieves state-of-the-art performance on the English-to-Arabic task in Tarjama-25, surpassing even significantly larger and proprietary models like GPT-4o mini. We publicly release Tarjama-25 to support future research and advance the evaluation of Arabic-English translation systems.

Summary

AI-Generated Summary

PDF2026May 27, 2025