Addestramento Multilingue delle Istruzioni con Solo un Pizzico di Multilinguismo
Multilingual Instruction Tuning With Just a Pinch of Multilinguality
January 3, 2024
Autori: Uri Shaham, Jonathan Herzig, Roee Aharoni, Idan Szpektor, Reut Tsarfaty, Matan Eyal
cs.AI
Abstract
Man mano che i grandi modelli linguistici (LLM) ottimizzati per seguire istruzioni guadagnano adozione globale, la loro capacità di seguire istruzioni in più lingue diventa sempre più cruciale. Un approccio promettente è il trasferimento cross-linguale, in cui un modello acquisisce una funzionalità specifica in una lingua attraverso il fine-tuning su un'altra lingua. In questo lavoro, indaghiamo come la multilinguità durante il tuning per seguire istruzioni di un LLM multilingue influenzi la capacità di seguire istruzioni attraverso le lingue. Innanzitutto, dimostriamo che molte lingue trasferiscono alcune capacità di seguire istruzioni ad altre lingue anche con un tuning monolingue. Inoltre, scopriamo che solo 40 esempi multilingue in un set di tuning in inglese migliorano sostanzialmente la capacità di seguire istruzioni in più lingue, sia in lingue viste che non viste durante il tuning. In generale, osserviamo che i modelli ottimizzati su miscele multilingue mostrano prestazioni comparabili o superiori in diverse lingue rispetto ai modelli ottimizzati monolingue, nonostante l'addestramento su 10 volte meno esempi in quelle lingue. Infine, scopriamo che aumentare il numero di lingue nel set di tuning per seguire istruzioni da 1 a solo 2, 3 o 4 aumenta la generalizzazione cross-linguale. I nostri risultati suggeriscono che la costruzione di modelli ottimizzati per seguire istruzioni in modo massicciamente multilingue può essere realizzata con un insieme molto piccolo di coppie istruzione-risposta multilingue.
English
As instruction-tuned large language models (LLMs) gain global adoption, their
ability to follow instructions in multiple languages becomes increasingly
crucial. One promising approach is cross-lingual transfer, where a model
acquires specific functionality on some language by finetuning on another
language. In this work, we investigate how multilinguality during instruction
tuning of a multilingual LLM affects instruction-following across languages. We
first show that many languages transfer some instruction-following capabilities
to other languages from even monolingual tuning. Furthermore, we find that only
40 multilingual examples in an English tuning set substantially improve
multilingual instruction-following, both in seen and unseen languages during
tuning. In general, we observe that models tuned on multilingual mixtures
exhibit comparable or superior performance in several languages compared to
monolingually tuned models, despite training on 10x fewer examples in those
languages. Finally, we find that increasing the number of languages in the
instruction tuning set from 1 to only 2, 3, or 4 increases cross-lingual
generalization. Our results suggest that building massively multilingual
instruction-tuned models can be done with only a very small set of multilingual
instruction-responses.