ChatPaper.aiChatPaper

Mutarjim : Faire progresser la traduction bidirectionnelle arabe-anglais avec un petit modèle de langage

Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model

May 23, 2025
Auteurs: Khalil Hennara, Muhammad Hreden, Mohamed Motaism Hamed, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
cs.AI

Résumé

Nous présentons Mutarjim, un modèle de langage compact mais puissant pour la traduction bidirectionnelle arabe-anglais. Bien que les grands modèles de langage (LLM) aient montré des progrès impressionnants dans les tâches de traitement du langage naturel, y compris la traduction automatique, les modèles plus petits peuvent également exceller. En tirant parti de cette idée, nous avons développé Mutarjim à partir de Kuwain-1.5B, un modèle de langage conçu spécifiquement pour l'arabe et l'anglais. Malgré sa taille modeste, Mutarjim surpasse des modèles beaucoup plus grands sur plusieurs benchmarks établis, grâce à une approche d'entraînement en deux phases optimisée et à un corpus d'entraînement de haute qualité soigneusement sélectionné. Les résultats expérimentaux montrent que Mutarjim rivalise avec des modèles jusqu'à 20 fois plus grands tout en réduisant considérablement les coûts de calcul et les besoins en entraînement. Nous introduisons également Tarjama-25, un nouveau benchmark conçu pour surmonter les limitations des jeux de données existants pour l'évaluation de la traduction arabe-anglais, telles que l'étroitesse des domaines, la longueur réduite des phrases et le biais en faveur de l'anglais comme langue source. Tarjama-25 comprend 5 000 paires de phrases expertisées et couvre un large éventail de domaines, offrant ainsi un cadre d'évaluation plus complet et équilibré. Notamment, Mutarjim atteint des performances de pointe sur la tâche de traduction anglais-arabe dans Tarjama-25, surpassant même des modèles nettement plus grands et propriétaires comme GPT-4o mini. Nous rendons Tarjama-25 public pour soutenir les recherches futures et faire progresser l'évaluation des systèmes de traduction arabe-anglais.
English
We introduce Mutarjim, a compact yet powerful language model for bidirectional Arabic-English translation. While large-scale LLMs have shown impressive progress in natural language processing tasks, including machine translation, smaller models. Leveraging this insight, we developed Mutarjim based on Kuwain-1.5B , a language model tailored for both Arabic and English. Despite its modest size, Mutarjim outperforms much larger models on several established benchmarks, achieved through an optimized two-phase training approach and a carefully curated, high-quality training corpus.. Experimental results show that Mutarjim rivals models up to 20 times larger while significantly reducing computational costs and training requirements. We also introduce Tarjama-25, a new benchmark designed to overcome limitations in existing Arabic-English benchmarking datasets, such as domain narrowness, short sentence lengths, and English-source bias. Tarjama-25 comprises 5,000 expert-reviewed sentence pairs and spans a wide range of domains, offering a more comprehensive and balanced evaluation framework. Notably, Mutarjim achieves state-of-the-art performance on the English-to-Arabic task in Tarjama-25, surpassing even significantly larger and proprietary models like GPT-4o mini. We publicly release Tarjama-25 to support future research and advance the evaluation of Arabic-English translation systems.

Summary

AI-Generated Summary

PDF2026May 27, 2025