Lius: Lingüística Instruccional Basada en un Modelo de Traducción mediante Ajuste Continuo de Instrucción en Malayo de Kupang

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs) ofrecen un nuevo potencial para las tareas de traducción, pero a menudo experimentan una degradación en su rendimiento al manejar idiomas de bajos recursos. Para abordar esta limitación, proponemos un enfoque para el ajuste fino de LLMs en un idioma de bajos recursos, el malayo de Kupang. Nuestro método implica diseñar un conjunto de instrucciones aprovechando características léxicas y semánticas explícitas de un diccionario bilingüe, e introducir el Ajuste Continuo de Instrucciones (CIT, por sus siglas en inglés), un paradigma de entrenamiento que permite un entrenamiento iterativo basado en instrucciones. Los resultados experimentales demuestran que nuestro modelo, denominado Lius, logra mejoras notables en comparación con los modelos estándar ajustados con instrucciones, superándolos por 4 a 6 puntos, y sobrepasando tanto a los modelos de Traducción Automática Neuronal (NMT) como a los LLMs multilingües por 10 a 13 puntos en varias métricas de evaluación. Estos hallazgos resaltan el potencial de nuestro enfoque para mitigar la dependencia de datos paralelos a gran escala en la traducción de idiomas de bajos recursos.

English

Large Language Models (LLMs) offer new potential for translation tasks but often experience performance degradation when handling low-resource languages. To address this limitation, we propose an approach for fine-tuning LLMs on a low-resource language, Kupang Malay. Our approach involves designing a set of instructions by leveraging explicit lexical and semantic features from a bilingual dictionary, and introducing Continual Instruction Tuning (CIT), a training paradigm that enables iterative instruction-based training. Experimental results demonstrate that our model, named Lius, yields notable improvements over standard instruction-tuned models by outperforming 4-6 points, and surpassing both Neural Machine Translation (NMT) and Multilingual LLM models by 10-13 points on several evaluation metrics. These findings highlight the potential of our approach to mitigate the reliance on large-scale parallel data in low-resource language translation.