Lius: Vertaalmodelgebaseerde instructieve taalkunde met continue instructie-tuning in het Kupang-Maleis

Samenvatting

Grote Taalmodellen (LLM's) bieden nieuwe mogelijkheden voor vertaaltaken, maar presteren vaak minder goed bij talen met weinig bronnen. Om deze beperking aan te pakken, stellen we een aanpak voor voor het fine-tunen van LLM's op een taal met weinig bronnen, het Kupang Maleis. Onze aanpak omvat het ontwerpen van een reeks instructies door expliciete lexicale en semantische kenmerken uit een tweetalig woordenboek te benutten, en het introduceren van Continue Instructie-afstemming (CIT), een trainingsparadigma dat iteratieve instructiegebaseerde training mogelijk maakt. Experimentele resultaten tonen aan dat ons model, genaamd Lius, aanzienlijke verbeteringen laat zien ten opzichte van standaard instructie-afgestemde modellen, met 4-6 punten betere prestaties, en zowel Neurale Machinevertaling (NMV) als meertalige LLM-modellen met 10-13 punten overtreft op verschillende evaluatiemaatstaven. Deze bevindingen benadrukken het potentieel van onze aanpak om de afhankelijkheid van grootschalige parallelle data bij vertalingen van talen met weinig bronnen te verminderen.

English

Large Language Models (LLMs) offer new potential for translation tasks but often experience performance degradation when handling low-resource languages. To address this limitation, we propose an approach for fine-tuning LLMs on a low-resource language, Kupang Malay. Our approach involves designing a set of instructions by leveraging explicit lexical and semantic features from a bilingual dictionary, and introducing Continual Instruction Tuning (CIT), a training paradigm that enables iterative instruction-based training. Experimental results demonstrate that our model, named Lius, yields notable improvements over standard instruction-tuned models by outperforming 4-6 points, and surpassing both Neural Machine Translation (NMT) and Multilingual LLM models by 10-13 points on several evaluation metrics. These findings highlight the potential of our approach to mitigate the reliance on large-scale parallel data in low-resource language translation.