ChatPaper.aiChatPaper

LLaMA Voorbij Engels: Een Empirische Studie naar Taalvaardigheidsoverdracht

LLaMA Beyond English: An Empirical Study on Language Capability Transfer

January 2, 2024
Auteurs: Jun Zhao, Zhihao Zhang, Qi Zhang, Tao Gui, Xuanjing Huang
cs.AI

Samenvatting

De laatste tijd zijn er aanzienlijke vooruitgangen geboekt in grote taalmodelen (LLMs), zoals geïllustreerd door ChatGPT, die opmerkelijke vaardigheden vertonen in een reeks complexe taken. Echter, veel gangbare LLMs (bijv. LLaMA) zijn voorgetraind op Engelstalige corpora, wat hun prestaties in andere niet-Engelse talen beperkt. In dit artikel richten we ons op hoe we de capaciteiten van taalgeneratie en het volgen van instructies effectief kunnen overbrengen naar een niet-Engelse taal. Om deze vraag te beantwoorden, voeren we een uitgebreid empirisch onderzoek uit op basis van LLaMA, waarbij we meer dan 1440 GPU-uren accumuleren. We analyseren de impact van belangrijke factoren zoals vocabulaire-uitbreiding, verdere voorpretraining en instructieafstemming op de overdracht. Om het kennisniveau van het model nauwkeurig te beoordelen, gebruiken we vier veelgebruikte gestandaardiseerde testbenchmarks: C-Eval, MMLU, AGI-Eval en GAOKAO-Bench. Daarnaast wordt een uitgebreide evaluatie van de kwaliteit van de reacties van het model uitgevoerd, waarbij aspecten zoals nauwkeurigheid, vloeiendheid, informatiefheid, logische samenhang en onschadelijkheid worden overwogen, gebaseerd op LLM-Eval, een benchmark bestaande uit instructietaken uit 17 diverse categorieën. Onze evaluatieresultaten tonen aan dat vergelijkbare prestaties met state-of-the-art overdrachtsmodellen kunnen worden bereikt met minder dan 1% van de voorpretrainingsgegevens, zowel wat betreft kennisafstemming als reactiekwaliteit. Bovendien vertonen de experimentele resultaten over de dertien talen met beperkte bronnen vergelijkbare trends. We verwachten dat de conclusies die door de experimenten worden onthuld, de gemeenschap zullen helpen bij het ontwikkelen van niet-Engelse LLMs.
English
In recent times, substantial advancements have been witnessed in large language models (LLMs), exemplified by ChatGPT, showcasing remarkable proficiency across a range of complex tasks. However, many mainstream LLMs (e.g. LLaMA) are pretrained on English-dominant corpus, which limits their performance in other non-English languages. In this paper, we focus on how to effectively transfer the capabilities of language generation and following instructions to a non-English language. To answer this question, we conduct an extensive empirical investigation based on LLaMA, accumulating over 1440 GPU hours. We analyze the impact of key factors such as vocabulary extension, further pretraining, and instruction tuning on transfer. To accurately assess the model's level of knowledge, we employ four widely used standardized testing benchmarks: C-Eval, MMLU, AGI-Eval, and GAOKAO-Bench. Furthermore, a comprehensive evaluation of the model's response quality is conducted, considering aspects such as accuracy, fluency, informativeness, logical coherence, and harmlessness, based on LLM-Eval, a benchmarks consisting instruction tasks from 17 diverse categories. Our evaluation results demonstrate that comparable performance to state-of-the-art transfer models can be achieved with less than 1% of the pretraining data, both in terms of knowledge alignment and response quality. Furthermore, the experimental outcomes across the thirteen low-resource languages also exhibit similar trends. We anticipate that the conclusions revealed by the experiments will aid the community in developing non-English LLMs.
PDF554December 15, 2024