Mutarjim : Faire progresser la traduction bidirectionnelle arabe-anglais avec un petit modèle de langageMutarjim: Advancing Bidirectional Arabic-English Translation with a
Small Language Model
Nous présentons Mutarjim, un modèle de langage compact mais puissant pour la traduction bidirectionnelle arabe-anglais. Bien que les grands modèles de langage (LLM) aient montré des progrès impressionnants dans les tâches de traitement du langage naturel, y compris la traduction automatique, les modèles plus petits peuvent également exceller. En tirant parti de cette idée, nous avons développé Mutarjim à partir de Kuwain-1.5B, un modèle de langage conçu spécifiquement pour l'arabe et l'anglais. Malgré sa taille modeste, Mutarjim surpasse des modèles beaucoup plus grands sur plusieurs benchmarks établis, grâce à une approche d'entraînement en deux phases optimisée et à un corpus d'entraînement de haute qualité soigneusement sélectionné. Les résultats expérimentaux montrent que Mutarjim rivalise avec des modèles jusqu'à 20 fois plus grands tout en réduisant considérablement les coûts de calcul et les besoins en entraînement. Nous introduisons également Tarjama-25, un nouveau benchmark conçu pour surmonter les limitations des jeux de données existants pour l'évaluation de la traduction arabe-anglais, telles que l'étroitesse des domaines, la longueur réduite des phrases et le biais en faveur de l'anglais comme langue source. Tarjama-25 comprend 5 000 paires de phrases expertisées et couvre un large éventail de domaines, offrant ainsi un cadre d'évaluation plus complet et équilibré. Notamment, Mutarjim atteint des performances de pointe sur la tâche de traduction anglais-arabe dans Tarjama-25, surpassant même des modèles nettement plus grands et propriétaires comme GPT-4o mini. Nous rendons Tarjama-25 public pour soutenir les recherches futures et faire progresser l'évaluation des systèmes de traduction arabe-anglais.