Mutarjim: Avanzando en la Traducción Bidireccional Árabe-Inglés con un Modelo de Lenguaje Pequeño
Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model
May 23, 2025
Autores: Khalil Hennara, Muhammad Hreden, Mohamed Motaism Hamed, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
cs.AI
Resumen
Presentamos Mutarjim, un modelo de lenguaje compacto pero potente para la traducción bidireccional árabe-inglés. Si bien los modelos de lenguaje a gran escala (LLMs) han demostrado un progreso impresionante en tareas de procesamiento del lenguaje natural, incluida la traducción automática, los modelos más pequeños también han mostrado su potencial. Aprovechando esta idea, desarrollamos Mutarjim basado en Kuwain-1.5B, un modelo de lenguaje diseñado específicamente para el árabe y el inglés. A pesar de su tamaño modesto, Mutarjim supera a modelos mucho más grandes en varios puntos de referencia establecidos, logrado mediante un enfoque de entrenamiento optimizado en dos fases y un corpus de entrenamiento cuidadosamente seleccionado y de alta calidad. Los resultados experimentales muestran que Mutarjim compite con modelos hasta 20 veces más grandes, reduciendo significativamente los costos computacionales y los requisitos de entrenamiento. También presentamos Tarjama-25, un nuevo punto de referencia diseñado para superar las limitaciones en los conjuntos de datos existentes para la evaluación de traducciones árabe-inglés, como la estrechez de dominio, la longitud corta de las oraciones y el sesgo hacia el inglés como idioma fuente. Tarjama-25 consta de 5,000 pares de oraciones revisados por expertos y abarca una amplia gama de dominios, ofreciendo un marco de evaluación más completo y equilibrado. Cabe destacar que Mutarjim logra un rendimiento de vanguardia en la tarea de inglés a árabe en Tarjama-25, superando incluso a modelos significativamente más grandes y propietarios como GPT-4o mini. Publicamos Tarjama-25 de manera abierta para apoyar futuras investigaciones y avanzar en la evaluación de sistemas de traducción árabe-inglés.
English
We introduce Mutarjim, a compact yet powerful language model for
bidirectional Arabic-English translation. While large-scale LLMs have shown
impressive progress in natural language processing tasks, including machine
translation, smaller models. Leveraging this insight, we developed Mutarjim
based on Kuwain-1.5B , a language model tailored for both Arabic and English.
Despite its modest size, Mutarjim outperforms much larger models on several
established benchmarks, achieved through an optimized two-phase training
approach and a carefully curated, high-quality training corpus.. Experimental
results show that Mutarjim rivals models up to 20 times larger while
significantly reducing computational costs and training requirements. We also
introduce Tarjama-25, a new benchmark designed to overcome limitations in
existing Arabic-English benchmarking datasets, such as domain narrowness, short
sentence lengths, and English-source bias. Tarjama-25 comprises 5,000
expert-reviewed sentence pairs and spans a wide range of domains, offering a
more comprehensive and balanced evaluation framework. Notably, Mutarjim
achieves state-of-the-art performance on the English-to-Arabic task in
Tarjama-25, surpassing even significantly larger and proprietary models like
GPT-4o mini. We publicly release Tarjama-25 to support future research and
advance the evaluation of Arabic-English translation systems.Summary
AI-Generated Summary