ChatPaper.aiChatPaper

Mutarjim: Avanzare nella Traduzione Bidirezionale Arabo-Inglese con un Modello Linguistico di Piccole Dimensioni

Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model

May 23, 2025
Autori: Khalil Hennara, Muhammad Hreden, Mohamed Motaism Hamed, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
cs.AI

Abstract

Presentiamo Mutarjim, un modello linguistico compatto ma potente per la traduzione bidirezionale arabo-inglese. Sebbene i modelli linguistici su larga scala (LLM) abbiano mostrato progressi impressionanti nelle attività di elaborazione del linguaggio naturale, inclusa la traduzione automatica, i modelli più piccoli possono comunque eccellere. Sfruttando questa intuizione, abbiamo sviluppato Mutarjim basandoci su Kuwain-1.5B, un modello linguistico ottimizzato sia per l'arabo che per l'inglese. Nonostante le sue dimensioni contenute, Mutarjim supera modelli molto più grandi su diversi benchmark consolidati, grazie a un approccio di addestramento in due fasi ottimizzato e a un corpus di addestramento di alta qualità e accuratamente curato. I risultati sperimentali dimostrano che Mutarjim rivaleggia con modelli fino a 20 volte più grandi, riducendo significativamente i costi computazionali e i requisiti di addestramento. Introduciamo inoltre Tarjama-25, un nuovo benchmark progettato per superare le limitazioni dei dataset esistenti per la valutazione arabo-inglese, come la ristrettezza del dominio, la brevità delle frasi e il bias verso l'inglese come lingua sorgente. Tarjama-25 comprende 5.000 coppie di frasi revisionate da esperti e copre un'ampia gamma di domini, offrendo un quadro di valutazione più completo ed equilibrato. In particolare, Mutarjim raggiunge prestazioni all'avanguardia nel compito di traduzione inglese-arabo su Tarjama-25, superando persino modelli significativamente più grandi e proprietari come GPT-4o mini. Rilasciamo pubblicamente Tarjama-25 per supportare la ricerca futura e avanzare la valutazione dei sistemi di traduzione arabo-inglese.
English
We introduce Mutarjim, a compact yet powerful language model for bidirectional Arabic-English translation. While large-scale LLMs have shown impressive progress in natural language processing tasks, including machine translation, smaller models. Leveraging this insight, we developed Mutarjim based on Kuwain-1.5B , a language model tailored for both Arabic and English. Despite its modest size, Mutarjim outperforms much larger models on several established benchmarks, achieved through an optimized two-phase training approach and a carefully curated, high-quality training corpus.. Experimental results show that Mutarjim rivals models up to 20 times larger while significantly reducing computational costs and training requirements. We also introduce Tarjama-25, a new benchmark designed to overcome limitations in existing Arabic-English benchmarking datasets, such as domain narrowness, short sentence lengths, and English-source bias. Tarjama-25 comprises 5,000 expert-reviewed sentence pairs and spans a wide range of domains, offering a more comprehensive and balanced evaluation framework. Notably, Mutarjim achieves state-of-the-art performance on the English-to-Arabic task in Tarjama-25, surpassing even significantly larger and proprietary models like GPT-4o mini. We publicly release Tarjama-25 to support future research and advance the evaluation of Arabic-English translation systems.
PDF2207May 27, 2025