Lius: Instruktive Linguistik basierend auf einem Übersetzungsmodell mittels kontinuierlicher Instruktionsoptimierung im Kupang-Malaiischen

Zusammenfassung

Große Sprachmodelle (Large Language Models, LLMs) bieten neues Potenzial für Übersetzungsaufgaben, zeigen jedoch häufig Leistungseinbußen bei der Verarbeitung ressourcenarmer Sprachen. Um diese Einschränkung zu adressieren, schlagen wir einen Ansatz zur Feinabstimmung von LLMs auf eine ressourcenarme Sprache, Kupang-Malaiisch, vor. Unser Ansatz umfasst die Entwicklung eines Satzes von Instruktionen unter Nutzung expliziter lexikalischer und semantischer Merkmale aus einem zweisprachigen Wörterbuch sowie die Einführung des Kontinuierlichen Instruktionstunings (Continual Instruction Tuning, CIT), eines Trainingsparadigmas, das iteratives instrukationsbasiertes Training ermöglicht. Experimentelle Ergebnisse zeigen, dass unser Modell namens Lius im Vergleich zu standardmäßig instrukationstunierten Modellen bemerkenswerte Verbesserungen erzielt, indem es diese um 4-6 Punkte übertrifft und sowohl neuronale Maschinenübersetzungsmodelle (Neural Machine Translation, NMT) als auch mehrsprachige LLM-Modelle um 10-13 Punkte bei mehreren Evaluierungsmetriken übertrifft. Diese Ergebnisse unterstreichen das Potenzial unseres Ansatzes, die Abhängigkeit von groß angelegten parallelen Daten in der Übersetzung ressourcenarmer Sprachen zu verringern.

English

Large Language Models (LLMs) offer new potential for translation tasks but often experience performance degradation when handling low-resource languages. To address this limitation, we propose an approach for fine-tuning LLMs on a low-resource language, Kupang Malay. Our approach involves designing a set of instructions by leveraging explicit lexical and semantic features from a bilingual dictionary, and introducing Continual Instruction Tuning (CIT), a training paradigm that enables iterative instruction-based training. Experimental results demonstrate that our model, named Lius, yields notable improvements over standard instruction-tuned models by outperforming 4-6 points, and surpassing both Neural Machine Translation (NMT) and Multilingual LLM models by 10-13 points on several evaluation metrics. These findings highlight the potential of our approach to mitigate the reliance on large-scale parallel data in low-resource language translation.