ChatPaper.aiChatPaper

단 한 줌의 다국어성으로 다국어 명령어 튜닝하기

Multilingual Instruction Tuning With Just a Pinch of Multilinguality

January 3, 2024
저자: Uri Shaham, Jonathan Herzig, Roee Aharoni, Idan Szpektor, Reut Tsarfaty, Matan Eyal
cs.AI

초록

명령어 튜닝된 대규모 언어 모델(LLM)이 전 세계적으로 확산됨에 따라, 다국어로 명령을 수행하는 능력은 점점 더 중요해지고 있습니다. 이와 관련해 한 가지 유망한 접근법은 교차 언어 전이(cross-lingual transfer)로, 모델이 한 언어에서 미세 조정(finetuning)을 통해 다른 언어에서 특정 기능을 획득하는 방식입니다. 본 연구에서는 다국어 LLM의 명령어 튜닝 과정에서 다국어성이 다양한 언어 간 명령 수행에 미치는 영향을 조사합니다. 먼저, 단일 언어 튜닝에서도 많은 언어가 다른 언어로 명령 수행 능력을 전이할 수 있음을 보여줍니다. 또한, 영어 튜닝 세트에 단 40개의 다국어 예제만 추가해도 튜닝 과정에서 접한 언어와 접하지 않은 언어 모두에서 다국어 명령 수행 능력이 크게 향상됨을 발견했습니다. 일반적으로, 다국어 혼합 데이터로 튜닝된 모델은 해당 언어에서 단일 언어 튜닝 모델보다 10배 적은 예제로 학습했음에도 불구하고 여러 언어에서 비슷하거나 더 나은 성능을 보였습니다. 마지막으로, 명령어 튜닝 세트의 언어 수를 1개에서 단 2개, 3개, 4개로 늘리는 것만으로도 교차 언어 일반화가 증가함을 확인했습니다. 이러한 결과는 대규모 다국어 명령어 튜닝 모델을 구축하는 데 매우 소규모의 다국어 명령어-응답 세트만으로도 충분할 수 있음을 시사합니다.
English
As instruction-tuned large language models (LLMs) gain global adoption, their ability to follow instructions in multiple languages becomes increasingly crucial. One promising approach is cross-lingual transfer, where a model acquires specific functionality on some language by finetuning on another language. In this work, we investigate how multilinguality during instruction tuning of a multilingual LLM affects instruction-following across languages. We first show that many languages transfer some instruction-following capabilities to other languages from even monolingual tuning. Furthermore, we find that only 40 multilingual examples in an English tuning set substantially improve multilingual instruction-following, both in seen and unseen languages during tuning. In general, we observe that models tuned on multilingual mixtures exhibit comparable or superior performance in several languages compared to monolingually tuned models, despite training on 10x fewer examples in those languages. Finally, we find that increasing the number of languages in the instruction tuning set from 1 to only 2, 3, or 4 increases cross-lingual generalization. Our results suggest that building massively multilingual instruction-tuned models can be done with only a very small set of multilingual instruction-responses.
PDF110December 15, 2024