Mutarjim: Avanzando en la Traducción Bidireccional Árabe-Inglés con un Modelo de Lenguaje PequeñoMutarjim: Advancing Bidirectional Arabic-English Translation with a
Small Language Model
Presentamos Mutarjim, un modelo de lenguaje compacto pero potente para la traducción bidireccional árabe-inglés. Si bien los modelos de lenguaje a gran escala (LLMs) han demostrado un progreso impresionante en tareas de procesamiento del lenguaje natural, incluida la traducción automática, los modelos más pequeños también han mostrado su potencial. Aprovechando esta idea, desarrollamos Mutarjim basado en Kuwain-1.5B, un modelo de lenguaje diseñado específicamente para el árabe y el inglés. A pesar de su tamaño modesto, Mutarjim supera a modelos mucho más grandes en varios puntos de referencia establecidos, logrado mediante un enfoque de entrenamiento optimizado en dos fases y un corpus de entrenamiento cuidadosamente seleccionado y de alta calidad. Los resultados experimentales muestran que Mutarjim compite con modelos hasta 20 veces más grandes, reduciendo significativamente los costos computacionales y los requisitos de entrenamiento. También presentamos Tarjama-25, un nuevo punto de referencia diseñado para superar las limitaciones en los conjuntos de datos existentes para la evaluación de traducciones árabe-inglés, como la estrechez de dominio, la longitud corta de las oraciones y el sesgo hacia el inglés como idioma fuente. Tarjama-25 consta de 5,000 pares de oraciones revisados por expertos y abarca una amplia gama de dominios, ofreciendo un marco de evaluación más completo y equilibrado. Cabe destacar que Mutarjim logra un rendimiento de vanguardia en la tarea de inglés a árabe en Tarjama-25, superando incluso a modelos significativamente más grandes y propietarios como GPT-4o mini. Publicamos Tarjama-25 de manera abierta para apoyar futuras investigaciones y avanzar en la evaluación de sistemas de traducción árabe-inglés.