ChatPaper.aiChatPaper

LLaMA 영어를 넘어서: 언어 능력 전이에 대한 실증적 연구

LLaMA Beyond English: An Empirical Study on Language Capability Transfer

January 2, 2024
저자: Jun Zhao, Zhihao Zhang, Qi Zhang, Tao Gui, Xuanjing Huang
cs.AI

초록

최근 ChatGPT와 같은 대형 언어 모델(LLM)의 상당한 발전이 이루어졌으며, 이는 다양한 복잡한 작업에서 놀라운 숙련도를 보여주고 있습니다. 그러나 LLaMA와 같은 많은 주류 LLM은 영어 중심 코퍼스로 사전 학습되어 있어 다른 비영어 언어에서의 성능이 제한적입니다. 본 논문에서는 언어 생성 및 지시 따르기 능력을 비영어 언어로 효과적으로 전이하는 방법에 초점을 맞춥니다. 이 문제를 해결하기 위해 LLaMA를 기반으로 1440 GPU 시간 이상의 광범위한 실증적 연구를 수행했습니다. 어휘 확장, 추가 사전 학습, 지시 튜닝과 같은 핵심 요소들이 전이에 미치는 영향을 분석했습니다. 모델의 지식 수준을 정확히 평가하기 위해 C-Eval, MMLU, AGI-Eval, GAOKAO-Bench와 같은 널리 사용되는 표준화된 테스트 벤치마크를 활용했습니다. 또한, 17개 다양한 범주의 지시 작업으로 구성된 벤치마크인 LLM-Eval을 기반으로 정확성, 유창성, 정보성, 논리적 일관성, 무해성 등의 측면에서 모델의 응답 품질을 종합적으로 평가했습니다. 평가 결과, 최신 전이 모델과 비슷한 성능을 사전 학습 데이터의 1% 미만으로도 달성할 수 있음을 보여주었으며, 이는 지식 정렬과 응답 품질 모두에서 해당됩니다. 또한, 13개의 저자원 언어에 대한 실험 결과도 유사한 경향을 보였습니다. 본 실험을 통해 도출된 결론이 비영어 LLM 개발에 커뮤니티가 도움을 받을 수 있기를 기대합니다.
English
In recent times, substantial advancements have been witnessed in large language models (LLMs), exemplified by ChatGPT, showcasing remarkable proficiency across a range of complex tasks. However, many mainstream LLMs (e.g. LLaMA) are pretrained on English-dominant corpus, which limits their performance in other non-English languages. In this paper, we focus on how to effectively transfer the capabilities of language generation and following instructions to a non-English language. To answer this question, we conduct an extensive empirical investigation based on LLaMA, accumulating over 1440 GPU hours. We analyze the impact of key factors such as vocabulary extension, further pretraining, and instruction tuning on transfer. To accurately assess the model's level of knowledge, we employ four widely used standardized testing benchmarks: C-Eval, MMLU, AGI-Eval, and GAOKAO-Bench. Furthermore, a comprehensive evaluation of the model's response quality is conducted, considering aspects such as accuracy, fluency, informativeness, logical coherence, and harmlessness, based on LLM-Eval, a benchmarks consisting instruction tasks from 17 diverse categories. Our evaluation results demonstrate that comparable performance to state-of-the-art transfer models can be achieved with less than 1% of the pretraining data, both in terms of knowledge alignment and response quality. Furthermore, the experimental outcomes across the thirteen low-resource languages also exhibit similar trends. We anticipate that the conclusions revealed by the experiments will aid the community in developing non-English LLMs.

Summary

AI-Generated Summary

PDF564December 15, 2024