Afinamiento Multilingüe de Instrucciones con Solo una Pizca de Multilingüismo
Multilingual Instruction Tuning With Just a Pinch of Multilinguality
January 3, 2024
Autores: Uri Shaham, Jonathan Herzig, Roee Aharoni, Idan Szpektor, Reut Tsarfaty, Matan Eyal
cs.AI
Resumen
A medida que los grandes modelos de lenguaje (LLMs) ajustados mediante instrucciones ganan adopción global, su capacidad para seguir instrucciones en múltiples idiomas se vuelve cada vez más crucial. Un enfoque prometedor es la transferencia lingüística cruzada, donde un modelo adquiere una funcionalidad específica en algún idioma mediante ajuste fino en otro idioma. En este trabajo, investigamos cómo la multilingüidad durante el ajuste mediante instrucciones de un LLM multilingüe afecta el seguimiento de instrucciones en diferentes idiomas. Primero demostramos que muchos idiomas transfieren algunas capacidades de seguimiento de instrucciones a otros idiomas incluso con ajustes monolingües. Además, encontramos que solo 40 ejemplos multilingües en un conjunto de ajuste en inglés mejoran sustancialmente el seguimiento de instrucciones multilingüe, tanto en idiomas vistos como no vistos durante el ajuste. En general, observamos que los modelos ajustados con mezclas multilingües exhiben un rendimiento comparable o superior en varios idiomas en comparación con los modelos ajustados monolingüemente, a pesar de entrenarse con 10 veces menos ejemplos en esos idiomas. Finalmente, encontramos que aumentar el número de idiomas en el conjunto de ajuste mediante instrucciones de 1 a solo 2, 3 o 4 incrementa la generalización lingüística cruzada. Nuestros resultados sugieren que la construcción de modelos masivamente multilingües ajustados mediante instrucciones puede realizarse con un conjunto muy pequeño de pares de instrucción-respuesta multilingües.
English
As instruction-tuned large language models (LLMs) gain global adoption, their
ability to follow instructions in multiple languages becomes increasingly
crucial. One promising approach is cross-lingual transfer, where a model
acquires specific functionality on some language by finetuning on another
language. In this work, we investigate how multilinguality during instruction
tuning of a multilingual LLM affects instruction-following across languages. We
first show that many languages transfer some instruction-following capabilities
to other languages from even monolingual tuning. Furthermore, we find that only
40 multilingual examples in an English tuning set substantially improve
multilingual instruction-following, both in seen and unseen languages during
tuning. In general, we observe that models tuned on multilingual mixtures
exhibit comparable or superior performance in several languages compared to
monolingually tuned models, despite training on 10x fewer examples in those
languages. Finally, we find that increasing the number of languages in the
instruction tuning set from 1 to only 2, 3, or 4 increases cross-lingual
generalization. Our results suggest that building massively multilingual
instruction-tuned models can be done with only a very small set of multilingual
instruction-responses.