Réglage d'instructions multilingues avec juste une pincée de multilingüité
Multilingual Instruction Tuning With Just a Pinch of Multilinguality
January 3, 2024
Auteurs: Uri Shaham, Jonathan Herzig, Roee Aharoni, Idan Szpektor, Reut Tsarfaty, Matan Eyal
cs.AI
Résumé
Alors que les grands modèles de langage (LLM) ajustés par instruction gagnent en adoption mondiale, leur capacité à suivre des instructions dans plusieurs langues devient de plus en plus cruciale. Une approche prometteuse est le transfert translinguistique, où un modèle acquiert une fonctionnalité spécifique dans une langue en étant affiné sur une autre langue. Dans ce travail, nous étudions comment le multilinguisme lors de l'ajustement par instruction d'un LLM multilingue affecte le suivi des instructions à travers les langues. Nous montrons d'abord que de nombreuses langues transfèrent certaines capacités de suivi des instructions à d'autres langues, même avec un ajustement monolingue. De plus, nous constatons que seulement 40 exemples multilingues dans un ensemble d'ajustement en anglais améliorent considérablement le suivi des instructions multilingues, à la fois dans les langues vues et non vues lors de l'ajustement. En général, nous observons que les modèles ajustés sur des mélanges multilingues présentent des performances comparables ou supérieures dans plusieurs langues par rapport aux modèles ajustés de manière monolingue, malgré un entraînement sur 10 fois moins d'exemples dans ces langues. Enfin, nous constatons que l'augmentation du nombre de langues dans l'ensemble d'ajustement par instruction de 1 à seulement 2, 3 ou 4 augmente la généralisation translinguistique. Nos résultats suggèrent que la construction de modèles massivement multilingues ajustés par instruction peut être réalisée avec seulement un très petit ensemble de réponses d'instruction multilingues.
English
As instruction-tuned large language models (LLMs) gain global adoption, their
ability to follow instructions in multiple languages becomes increasingly
crucial. One promising approach is cross-lingual transfer, where a model
acquires specific functionality on some language by finetuning on another
language. In this work, we investigate how multilinguality during instruction
tuning of a multilingual LLM affects instruction-following across languages. We
first show that many languages transfer some instruction-following capabilities
to other languages from even monolingual tuning. Furthermore, we find that only
40 multilingual examples in an English tuning set substantially improve
multilingual instruction-following, both in seen and unseen languages during
tuning. In general, we observe that models tuned on multilingual mixtures
exhibit comparable or superior performance in several languages compared to
monolingually tuned models, despite training on 10x fewer examples in those
languages. Finally, we find that increasing the number of languages in the
instruction tuning set from 1 to only 2, 3, or 4 increases cross-lingual
generalization. Our results suggest that building massively multilingual
instruction-tuned models can be done with only a very small set of multilingual
instruction-responses.