Ajuste de Instruções Multilíngue com Apenas um Toque de Multilinguismo

Resumo

À medida que os grandes modelos de linguagem (LLMs) ajustados por instruções ganham adoção global, sua capacidade de seguir instruções em múltiplos idiomas torna-se cada vez mais crucial. Uma abordagem promissora é a transferência translinguística, em que um modelo adquire funcionalidades específicas em um idioma por meio de ajuste fino em outro idioma. Neste trabalho, investigamos como a multilingüidade durante o ajuste por instruções de um LLM multilíngue afeta o seguimento de instruções entre idiomas. Primeiro, mostramos que muitos idiomas transferem algumas capacidades de seguir instruções para outros idiomas, mesmo com ajuste monolíngue. Além disso, descobrimos que apenas 40 exemplos multilíngues em um conjunto de ajuste em inglês melhoram substancialmente o seguimento de instruções multilíngues, tanto em idiomas vistos quanto não vistos durante o ajuste. Em geral, observamos que modelos ajustados em misturas multilíngues exibem desempenho comparável ou superior em vários idiomas em comparação com modelos ajustados monolingualmente, apesar de serem treinados com 10 vezes menos exemplos nesses idiomas. Por fim, descobrimos que aumentar o número de idiomas no conjunto de ajuste por instruções de 1 para apenas 2, 3 ou 4 aumenta a generalização translinguística. Nossos resultados sugerem que a construção de modelos massivamente multilíngues ajustados por instruções pode ser feita com apenas um conjunto muito pequeno de pares de instrução-resposta multilíngues.

English

As instruction-tuned large language models (LLMs) gain global adoption, their ability to follow instructions in multiple languages becomes increasingly crucial. One promising approach is cross-lingual transfer, where a model acquires specific functionality on some language by finetuning on another language. In this work, we investigate how multilinguality during instruction tuning of a multilingual LLM affects instruction-following across languages. We first show that many languages transfer some instruction-following capabilities to other languages from even monolingual tuning. Furthermore, we find that only 40 multilingual examples in an English tuning set substantially improve multilingual instruction-following, both in seen and unseen languages during tuning. In general, we observe that models tuned on multilingual mixtures exhibit comparable or superior performance in several languages compared to monolingually tuned models, despite training on 10x fewer examples in those languages. Finally, we find that increasing the number of languages in the instruction tuning set from 1 to only 2, 3, or 4 increases cross-lingual generalization. Our results suggest that building massively multilingual instruction-tuned models can be done with only a very small set of multilingual instruction-responses.

Ajuste de Instruções Multilíngue com Apenas um Toque de Multilinguismo

Multilingual Instruction Tuning With Just a Pinch of Multilinguality

Resumo

Support