ChatPaper.aiChatPaper

Многоязычная настройка инструкций с минимальным использованием многоязычности

Multilingual Instruction Tuning With Just a Pinch of Multilinguality

January 3, 2024
Авторы: Uri Shaham, Jonathan Herzig, Roee Aharoni, Idan Szpektor, Reut Tsarfaty, Matan Eyal
cs.AI

Аннотация

По мере глобального распространения крупных языковых моделей (LLM), настроенных на выполнение инструкций, их способность следовать инструкциям на нескольких языках становится все более важной. Одним из перспективных подходов является кросс-лингвистический перенос, при котором модель приобретает определенные функциональные возможности на одном языке за счет тонкой настройки на другом языке. В данной работе мы исследуем, как многоязычие в процессе настройки на выполнение инструкций в многоязычной LLM влияет на способность следовать инструкциям на разных языках. Сначала мы показываем, что многие языки передают некоторые способности следовать инструкциям на другие языки даже при моноязычной настройке. Кроме того, мы обнаруживаем, что всего 40 многоязычных примеров в наборе для настройки на английском языке существенно улучшают способность следовать инструкциям на нескольких языках, как на тех, которые были представлены в процессе настройки, так и на тех, которые не были представлены. В целом мы наблюдаем, что модели, настроенные на многоязычных смесях, демонстрируют сопоставимую или превосходящую производительность на нескольких языках по сравнению с моделями, настроенными моноязычно, несмотря на обучение на 10 раз меньшем количестве примеров на этих языках. Наконец, мы обнаруживаем, что увеличение количества языков в наборе для настройки на выполнение инструкций с 1 до всего лишь 2, 3 или 4 усиливает кросс-лингвистическую обобщаемость. Наши результаты позволяют предположить, что создание массово многоязычных моделей, настроенных на выполнение инструкций, может быть осуществлено с использованием очень небольшого набора многоязычных инструкций и ответов.
English
As instruction-tuned large language models (LLMs) gain global adoption, their ability to follow instructions in multiple languages becomes increasingly crucial. One promising approach is cross-lingual transfer, where a model acquires specific functionality on some language by finetuning on another language. In this work, we investigate how multilinguality during instruction tuning of a multilingual LLM affects instruction-following across languages. We first show that many languages transfer some instruction-following capabilities to other languages from even monolingual tuning. Furthermore, we find that only 40 multilingual examples in an English tuning set substantially improve multilingual instruction-following, both in seen and unseen languages during tuning. In general, we observe that models tuned on multilingual mixtures exhibit comparable or superior performance in several languages compared to monolingually tuned models, despite training on 10x fewer examples in those languages. Finally, we find that increasing the number of languages in the instruction tuning set from 1 to only 2, 3, or 4 increases cross-lingual generalization. Our results suggest that building massively multilingual instruction-tuned models can be done with only a very small set of multilingual instruction-responses.
PDF110December 15, 2024