Ajuste de Instruções Multilíngue com Apenas um Toque de Multilinguismo
Multilingual Instruction Tuning With Just a Pinch of Multilinguality
January 3, 2024
Autores: Uri Shaham, Jonathan Herzig, Roee Aharoni, Idan Szpektor, Reut Tsarfaty, Matan Eyal
cs.AI
Resumo
À medida que os grandes modelos de linguagem (LLMs) ajustados por instruções ganham adoção global, sua capacidade de seguir instruções em múltiplos idiomas torna-se cada vez mais crucial. Uma abordagem promissora é a transferência translinguística, em que um modelo adquire funcionalidades específicas em um idioma por meio de ajuste fino em outro idioma. Neste trabalho, investigamos como a multilingüidade durante o ajuste por instruções de um LLM multilíngue afeta o seguimento de instruções entre idiomas. Primeiro, mostramos que muitos idiomas transferem algumas capacidades de seguir instruções para outros idiomas, mesmo com ajuste monolíngue. Além disso, descobrimos que apenas 40 exemplos multilíngues em um conjunto de ajuste em inglês melhoram substancialmente o seguimento de instruções multilíngues, tanto em idiomas vistos quanto não vistos durante o ajuste. Em geral, observamos que modelos ajustados em misturas multilíngues exibem desempenho comparável ou superior em vários idiomas em comparação com modelos ajustados monolingualmente, apesar de serem treinados com 10 vezes menos exemplos nesses idiomas. Por fim, descobrimos que aumentar o número de idiomas no conjunto de ajuste por instruções de 1 para apenas 2, 3 ou 4 aumenta a generalização translinguística. Nossos resultados sugerem que a construção de modelos massivamente multilíngues ajustados por instruções pode ser feita com apenas um conjunto muito pequeno de pares de instrução-resposta multilíngues.
English
As instruction-tuned large language models (LLMs) gain global adoption, their
ability to follow instructions in multiple languages becomes increasingly
crucial. One promising approach is cross-lingual transfer, where a model
acquires specific functionality on some language by finetuning on another
language. In this work, we investigate how multilinguality during instruction
tuning of a multilingual LLM affects instruction-following across languages. We
first show that many languages transfer some instruction-following capabilities
to other languages from even monolingual tuning. Furthermore, we find that only
40 multilingual examples in an English tuning set substantially improve
multilingual instruction-following, both in seen and unseen languages during
tuning. In general, we observe that models tuned on multilingual mixtures
exhibit comparable or superior performance in several languages compared to
monolingually tuned models, despite training on 10x fewer examples in those
languages. Finally, we find that increasing the number of languages in the
instruction tuning set from 1 to only 2, 3, or 4 increases cross-lingual
generalization. Our results suggest that building massively multilingual
instruction-tuned models can be done with only a very small set of multilingual
instruction-responses.