Mutarjim: Avançando na Tradução Bidirecional Árabe-Inglês com um Modelo de Linguagem Pequeno
Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model
May 23, 2025
Autores: Khalil Hennara, Muhammad Hreden, Mohamed Motaism Hamed, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
cs.AI
Resumo
Apresentamos o Mutarjim, um modelo de linguagem compacto, porém poderoso, para tradução bidirecional entre árabe e inglês. Embora modelos de linguagem de grande escala (LLMs) tenham demonstrado progressos impressionantes em tarefas de processamento de linguagem natural, incluindo tradução automática, modelos menores também têm seu valor. Aproveitando essa percepção, desenvolvemos o Mutarjim com base no Kuwain-1.5B, um modelo de linguagem projetado especificamente para árabe e inglês. Apesar de seu tamanho modesto, o Mutarjim supera modelos muito maiores em diversos benchmarks estabelecidos, graças a uma abordagem de treinamento otimizada em duas fases e um corpus de treinamento cuidadosamente selecionado e de alta qualidade. Resultados experimentais mostram que o Mutarjim rivaliza com modelos até 20 vezes maiores, ao mesmo tempo que reduz significativamente os custos computacionais e as exigências de treinamento. Também apresentamos o Tarjama-25, um novo benchmark projetado para superar as limitações dos conjuntos de dados existentes para avaliação de tradução árabe-inglês, como a estreiteza de domínio, o comprimento curto das frases e o viés em favor de textos de origem em inglês. O Tarjama-25 é composto por 5.000 pares de frases revisados por especialistas e abrange uma ampla gama de domínios, oferecendo um framework de avaliação mais abrangente e equilibrado. Notavelmente, o Mutarjim alcança desempenho de ponta na tarefa de inglês para árabe no Tarjama-25, superando até mesmo modelos significativamente maiores e proprietários, como o GPT-4o mini. Disponibilizamos publicamente o Tarjama-25 para apoiar pesquisas futuras e avançar a avaliação de sistemas de tradução árabe-inglês.
English
We introduce Mutarjim, a compact yet powerful language model for
bidirectional Arabic-English translation. While large-scale LLMs have shown
impressive progress in natural language processing tasks, including machine
translation, smaller models. Leveraging this insight, we developed Mutarjim
based on Kuwain-1.5B , a language model tailored for both Arabic and English.
Despite its modest size, Mutarjim outperforms much larger models on several
established benchmarks, achieved through an optimized two-phase training
approach and a carefully curated, high-quality training corpus.. Experimental
results show that Mutarjim rivals models up to 20 times larger while
significantly reducing computational costs and training requirements. We also
introduce Tarjama-25, a new benchmark designed to overcome limitations in
existing Arabic-English benchmarking datasets, such as domain narrowness, short
sentence lengths, and English-source bias. Tarjama-25 comprises 5,000
expert-reviewed sentence pairs and spans a wide range of domains, offering a
more comprehensive and balanced evaluation framework. Notably, Mutarjim
achieves state-of-the-art performance on the English-to-Arabic task in
Tarjama-25, surpassing even significantly larger and proprietary models like
GPT-4o mini. We publicly release Tarjama-25 to support future research and
advance the evaluation of Arabic-English translation systems.