Mutarjim: Vooruitgang in Bidirectionele Arabisch-Engelse Vertaling met een Klein Taalmodel
Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model
May 23, 2025
Auteurs: Khalil Hennara, Muhammad Hreden, Mohamed Motaism Hamed, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
cs.AI
Samenvatting
We introduceren Mutarjim, een compact maar krachtig taalmodel voor bidirectionele Arabisch-Engelse vertaling. Hoewel grootschalige LLM's indrukwekkende vooruitgang hebben geboekt in natuurlijke taalverwerkingstaken, waaronder machinaal vertalen, richten wij ons op kleinere modellen. Gebruikmakend van dit inzicht ontwikkelden we Mutarjim op basis van Kuwain-1.5B, een taalmodel dat is afgestemd op zowel Arabisch als Engels. Ondanks zijn bescheiden formaat overtreft Mutarjim veel grotere modellen op verschillende gevestigde benchmarks, wat wordt bereikt door een geoptimaliseerde tweefasige trainingsaanpak en een zorgvuldig samengesteld, hoogwaardig trainingscorpus. Experimentele resultaten tonen aan dat Mutarjim kan concurreren met modellen die tot 20 keer groter zijn, terwijl de rekenkosten en trainingsvereisten aanzienlijk worden verminderd. We introduceren ook Tarjama-25, een nieuwe benchmark die is ontworpen om beperkingen in bestaande Arabisch-Engelse benchmarkdatasets te overwinnen, zoals domeinbeperktheid, korte zinslengtes en een Engelse-bronbias. Tarjama-25 bestaat uit 5.000 door experts beoordeelde zinparen en beslaat een breed scala aan domeinen, waardoor het een uitgebreider en evenwichtiger evaluatiekader biedt. Opmerkelijk is dat Mutarjim state-of-the-art prestaties behaalt voor de Engelse-naar-Arabische taak in Tarjama-25, waarbij het zelfs aanzienlijk grotere en propriëtaire modellen zoals GPT-4o mini overtreft. We maken Tarjama-25 publiekelijk beschikbaar om toekomstig onderzoek te ondersteunen en de evaluatie van Arabisch-Engelse vertaalsystemen te bevorderen.
English
We introduce Mutarjim, a compact yet powerful language model for
bidirectional Arabic-English translation. While large-scale LLMs have shown
impressive progress in natural language processing tasks, including machine
translation, smaller models. Leveraging this insight, we developed Mutarjim
based on Kuwain-1.5B , a language model tailored for both Arabic and English.
Despite its modest size, Mutarjim outperforms much larger models on several
established benchmarks, achieved through an optimized two-phase training
approach and a carefully curated, high-quality training corpus.. Experimental
results show that Mutarjim rivals models up to 20 times larger while
significantly reducing computational costs and training requirements. We also
introduce Tarjama-25, a new benchmark designed to overcome limitations in
existing Arabic-English benchmarking datasets, such as domain narrowness, short
sentence lengths, and English-source bias. Tarjama-25 comprises 5,000
expert-reviewed sentence pairs and spans a wide range of domains, offering a
more comprehensive and balanced evaluation framework. Notably, Mutarjim
achieves state-of-the-art performance on the English-to-Arabic task in
Tarjama-25, surpassing even significantly larger and proprietary models like
GPT-4o mini. We publicly release Tarjama-25 to support future research and
advance the evaluation of Arabic-English translation systems.