Lius: Modelo de Tradução Baseado em Linguística Instrucional usando Ajuste Contínuo de Instrução em Malaio de Kupang

Resumo

Grandes Modelos de Linguagem (LLMs) oferecem novo potencial para tarefas de tradução, mas frequentemente apresentam degradação de desempenho ao lidar com línguas de baixos recursos. Para superar essa limitação, propomos uma abordagem de ajuste fino de LLMs em uma língua de baixos recursos, o Malaio de Kupang. Nossa abordagem envolve a elaboração de um conjunto de instruções, aproveitando características lexicais e semânticas explícitas de um dicionário bilíngue, e a introdução do Ajuste Contínuo de Instruções (CIT, na sigla em inglês), um paradigma de treinamento que possibilita o treinamento iterativo baseado em instruções. Os resultados experimentais demonstram que nosso modelo, denominado Lius, apresenta melhorias notáveis em relação a modelos padrão ajustados por instruções, superando-os em 4 a 6 pontos percentuais, e ultrapassando tanto modelos de Tradução Automática Neural (NMT) quanto LLMs multilíngues em 10 a 13 pontos em diversas métricas de avaliação. Esses achados destacam o potencial de nossa abordagem para mitigar a dependência de dados paralelos em larga escala na tradução de línguas de baixos recursos.

English

Large Language Models (LLMs) offer new potential for translation tasks but often experience performance degradation when handling low-resource languages. To address this limitation, we propose an approach for fine-tuning LLMs on a low-resource language, Kupang Malay. Our approach involves designing a set of instructions by leveraging explicit lexical and semantic features from a bilingual dictionary, and introducing Continual Instruction Tuning (CIT), a training paradigm that enables iterative instruction-based training. Experimental results demonstrate that our model, named Lius, yields notable improvements over standard instruction-tuned models by outperforming 4-6 points, and surpassing both Neural Machine Translation (NMT) and Multilingual LLM models by 10-13 points on several evaluation metrics. These findings highlight the potential of our approach to mitigate the reliance on large-scale parallel data in low-resource language translation.