ChatPaper.aiChatPaper

Mutarjim: Avançando na Tradução Bidirecional Árabe-Inglês com um Modelo de Linguagem Pequeno

Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model

May 23, 2025
Autores: Khalil Hennara, Muhammad Hreden, Mohamed Motaism Hamed, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
cs.AI

Resumo

Apresentamos o Mutarjim, um modelo de linguagem compacto, porém poderoso, para tradução bidirecional entre árabe e inglês. Embora modelos de linguagem de grande escala (LLMs) tenham demonstrado progressos impressionantes em tarefas de processamento de linguagem natural, incluindo tradução automática, modelos menores também têm seu valor. Aproveitando essa percepção, desenvolvemos o Mutarjim com base no Kuwain-1.5B, um modelo de linguagem projetado especificamente para árabe e inglês. Apesar de seu tamanho modesto, o Mutarjim supera modelos muito maiores em diversos benchmarks estabelecidos, graças a uma abordagem de treinamento otimizada em duas fases e um corpus de treinamento cuidadosamente selecionado e de alta qualidade. Resultados experimentais mostram que o Mutarjim rivaliza com modelos até 20 vezes maiores, ao mesmo tempo que reduz significativamente os custos computacionais e as exigências de treinamento. Também apresentamos o Tarjama-25, um novo benchmark projetado para superar as limitações dos conjuntos de dados existentes para avaliação de tradução árabe-inglês, como a estreiteza de domínio, o comprimento curto das frases e o viés em favor de textos de origem em inglês. O Tarjama-25 é composto por 5.000 pares de frases revisados por especialistas e abrange uma ampla gama de domínios, oferecendo um framework de avaliação mais abrangente e equilibrado. Notavelmente, o Mutarjim alcança desempenho de ponta na tarefa de inglês para árabe no Tarjama-25, superando até mesmo modelos significativamente maiores e proprietários, como o GPT-4o mini. Disponibilizamos publicamente o Tarjama-25 para apoiar pesquisas futuras e avançar a avaliação de sistemas de tradução árabe-inglês.
English
We introduce Mutarjim, a compact yet powerful language model for bidirectional Arabic-English translation. While large-scale LLMs have shown impressive progress in natural language processing tasks, including machine translation, smaller models. Leveraging this insight, we developed Mutarjim based on Kuwain-1.5B , a language model tailored for both Arabic and English. Despite its modest size, Mutarjim outperforms much larger models on several established benchmarks, achieved through an optimized two-phase training approach and a carefully curated, high-quality training corpus.. Experimental results show that Mutarjim rivals models up to 20 times larger while significantly reducing computational costs and training requirements. We also introduce Tarjama-25, a new benchmark designed to overcome limitations in existing Arabic-English benchmarking datasets, such as domain narrowness, short sentence lengths, and English-source bias. Tarjama-25 comprises 5,000 expert-reviewed sentence pairs and spans a wide range of domains, offering a more comprehensive and balanced evaluation framework. Notably, Mutarjim achieves state-of-the-art performance on the English-to-Arabic task in Tarjama-25, surpassing even significantly larger and proprietary models like GPT-4o mini. We publicly release Tarjama-25 to support future research and advance the evaluation of Arabic-English translation systems.
PDF2207December 16, 2025