Лиус: Лингвистическая модель обучения на основе перевода с использованием непрерывной настройки по инструкциям на купангском малайском языке

Аннотация

Большие языковые модели (LLM) открывают новые возможности для задач перевода, однако часто демонстрируют снижение производительности при работе с низкоресурсными языками. Для преодоления этого ограничения мы предлагаем подход к дообучению (fine-tuning) LLM на низкоресурсном языке — купангском малайском. Наш подход включает разработку набора инструкций с использованием явных лексических и семантических признаков из двуязычного словаря, а также внедрение Continual Instruction Tuning (CIT) — парадигмы обучения, позволяющей проводить итеративное обучение на основе инструкций. Экспериментальные результаты показывают, что наша модель, названная Lius, достигает значительных улучшений по сравнению со стандартными моделями, настроенными на инструкции, превосходя их на 4–6 баллов, а также опережает как модели нейронного машинного перевода (NMT), так и многоязычные LLM на 10–13 баллов по нескольким метрикам оценки. Эти результаты подчеркивают потенциал нашего подхода для снижения зависимости от крупномасштабных параллельных данных при переводе низкоресурсных языков.

English

Large Language Models (LLMs) offer new potential for translation tasks but often experience performance degradation when handling low-resource languages. To address this limitation, we propose an approach for fine-tuning LLMs on a low-resource language, Kupang Malay. Our approach involves designing a set of instructions by leveraging explicit lexical and semantic features from a bilingual dictionary, and introducing Continual Instruction Tuning (CIT), a training paradigm that enables iterative instruction-based training. Experimental results demonstrate that our model, named Lius, yields notable improvements over standard instruction-tuned models by outperforming 4-6 points, and surpassing both Neural Machine Translation (NMT) and Multilingual LLM models by 10-13 points on several evaluation metrics. These findings highlight the potential of our approach to mitigate the reliance on large-scale parallel data in low-resource language translation.