히브리어에 맞춰진 LLM: 향상된 어휘와 명령어 처리 능력을 갖춘 DictaLM 2.0 공개
Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities
July 9, 2024
저자: Shaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel
cs.AI
초록
히브리어와 같은 저자원 언어로 대규모 언어 모델(LLM)을 훈련시키는 것은 독특한 도전 과제를 제시합니다. 본 논문에서는 Mistral 모델에서 파생된 두 가지 LLM인 DictaLM2.0과 DictaLM2.0-Instruct를 소개합니다. 이 모델들은 히브리어와 영어로 구성된 약 2000억 토큰의 방대한 코퍼스로 훈련되었습니다. 사전 훈련된 모델을 새로운 언어에 적응시키는 것은 처음부터 모델을 훈련시키거나 영어와 같은 고자원 언어로 기존 모델을 추가 훈련시키는 것과는 상당히 다른 특수한 기술을 필요로 합니다. 우리는 히브리어의 언어적 특성에 효과적으로 학습하고 적응할 수 있도록 돕는 이러한 새로운 훈련 방법론을 설명합니다. 또한, DictaLM2.0-Instruct를 포괄적인 지시 데이터셋으로 미세 조정하여 작업별 지시에 대한 성능을 향상시켰습니다. 모델을 엄격하게 평가하기 위해, 우리는 질문 응답, 감정 분석, Winograd 스키마 챌린지, 번역, 요약 등 다양한 작업을 포함하는 히브리어 LLM 평가를 위한 새로운 벤치마크 제품군을 도입했습니다. 우리의 연구는 저자원 언어로 LLM을 훈련시키는 복잡성을 해결할 뿐만 아니라, 다른 LLM을 다양한 비영어 언어에 적응시키는 데 활용할 수 있는 프레임워크를 제안함으로써 다국어 NLP 분야에 기여합니다.
English
Training large language models (LLMs) in low-resource languages such as
Hebrew poses unique challenges. In this paper, we introduce DictaLM2.0 and
DictaLM2.0-Instruct, two LLMs derived from the Mistral model, trained on a
substantial corpus of approximately 200 billion tokens in both Hebrew and
English. Adapting a pre-trained model to a new language involves specialized
techniques that differ significantly from training a model from scratch or
further training existing models on well-resourced languages such as English.
We outline these novel training methodologies, which facilitate effective
learning and adaptation to the linguistic properties of Hebrew. Additionally,
we fine-tuned DictaLM2.0-Instruct on a comprehensive instruct dataset to
enhance its performance on task-specific instructions. To rigorously evaluate
our models, we introduce a new benchmark suite for Hebrew LLM evaluation,
covering a diverse set of tasks including Question Answering, Sentiment
Analysis, Winograd Schema Challenge, Translation, and Summarization. Our work
not only addresses the intricacies of training LLMs in low-resource languages
but also proposes a framework that can be leveraged for adapting other LLMs to
various non-English languages, contributing to the broader field of
multilingual NLP.Summary
AI-Generated Summary