Lius : Linguistique pédagogique basée sur un modèle de traduction utilisant un réglage continu par instructions en malais de Kupang

Résumé

Les grands modèles de langage (LLMs) offrent un nouveau potentiel pour les tâches de traduction, mais leur performance se dégrade souvent lorsqu'ils traitent des langues à faibles ressources. Pour pallier cette limitation, nous proposons une approche de réglage fin des LLMs sur une langue faiblement dotée, le malais de Kupang. Notre méthode consiste à concevoir un ensemble d'instructions en exploitant des caractéristiques lexicales et sémantiques explicites issues d'un dictionnaire bilingue, et à introduire le Réglage Continu par Instructions (RCI), un paradigme d'entraînement permettant un apprentissage itératif basé sur des instructions. Les résultats expérimentaux montrent que notre modèle, nommé Lius, obtient des améliorations notables par rapport aux modèles standards ajustés par instructions, avec un gain de 4 à 6 points, et dépasse à la fois les modèles de Traduction Automatique Neuronale (TAN) et les LLMs multilingues de 10 à 13 points selon plusieurs métriques d'évaluation. Ces résultats soulignent le potentiel de notre approche pour réduire la dépendance aux données parallèles à grande échelle dans la traduction de langues à faibles ressources.

English

Large Language Models (LLMs) offer new potential for translation tasks but often experience performance degradation when handling low-resource languages. To address this limitation, we propose an approach for fine-tuning LLMs on a low-resource language, Kupang Malay. Our approach involves designing a set of instructions by leveraging explicit lexical and semantic features from a bilingual dictionary, and introducing Continual Instruction Tuning (CIT), a training paradigm that enables iterative instruction-based training. Experimental results demonstrate that our model, named Lius, yields notable improvements over standard instruction-tuned models by outperforming 4-6 points, and surpassing both Neural Machine Translation (NMT) and Multilingual LLM models by 10-13 points on several evaluation metrics. These findings highlight the potential of our approach to mitigate the reliance on large-scale parallel data in low-resource language translation.