Mutarjim: Avanzando en la Traducción Bidireccional Árabe-Inglés con un Modelo de Lenguaje Pequeño

Resumen

Presentamos Mutarjim, un modelo de lenguaje compacto pero potente para la traducción bidireccional árabe-inglés. Si bien los modelos de lenguaje a gran escala (LLMs) han demostrado un progreso impresionante en tareas de procesamiento del lenguaje natural, incluida la traducción automática, los modelos más pequeños también han mostrado su potencial. Aprovechando esta idea, desarrollamos Mutarjim basado en Kuwain-1.5B, un modelo de lenguaje diseñado específicamente para el árabe y el inglés. A pesar de su tamaño modesto, Mutarjim supera a modelos mucho más grandes en varios puntos de referencia establecidos, logrado mediante un enfoque de entrenamiento optimizado en dos fases y un corpus de entrenamiento cuidadosamente seleccionado y de alta calidad. Los resultados experimentales muestran que Mutarjim compite con modelos hasta 20 veces más grandes, reduciendo significativamente los costos computacionales y los requisitos de entrenamiento. También presentamos Tarjama-25, un nuevo punto de referencia diseñado para superar las limitaciones en los conjuntos de datos existentes para la evaluación de traducciones árabe-inglés, como la estrechez de dominio, la longitud corta de las oraciones y el sesgo hacia el inglés como idioma fuente. Tarjama-25 consta de 5,000 pares de oraciones revisados por expertos y abarca una amplia gama de dominios, ofreciendo un marco de evaluación más completo y equilibrado. Cabe destacar que Mutarjim logra un rendimiento de vanguardia en la tarea de inglés a árabe en Tarjama-25, superando incluso a modelos significativamente más grandes y propietarios como GPT-4o mini. Publicamos Tarjama-25 de manera abierta para apoyar futuras investigaciones y avanzar en la evaluación de sistemas de traducción árabe-inglés.

English

We introduce Mutarjim, a compact yet powerful language model for bidirectional Arabic-English translation. While large-scale LLMs have shown impressive progress in natural language processing tasks, including machine translation, smaller models. Leveraging this insight, we developed Mutarjim based on Kuwain-1.5B , a language model tailored for both Arabic and English. Despite its modest size, Mutarjim outperforms much larger models on several established benchmarks, achieved through an optimized two-phase training approach and a carefully curated, high-quality training corpus.. Experimental results show that Mutarjim rivals models up to 20 times larger while significantly reducing computational costs and training requirements. We also introduce Tarjama-25, a new benchmark designed to overcome limitations in existing Arabic-English benchmarking datasets, such as domain narrowness, short sentence lengths, and English-source bias. Tarjama-25 comprises 5,000 expert-reviewed sentence pairs and spans a wide range of domains, offering a more comprehensive and balanced evaluation framework. Notably, Mutarjim achieves state-of-the-art performance on the English-to-Arabic task in Tarjama-25, surpassing even significantly larger and proprietary models like GPT-4o mini. We publicly release Tarjama-25 to support future research and advance the evaluation of Arabic-English translation systems.

Mutarjim: Avanzando en la Traducción Bidireccional Árabe-Inglés con un Modelo de Lenguaje Pequeño

Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model

Resumen

Support