ヘブライ語へのLLM適応:強化された語彙と指示能力を備えたDictaLM 2.0の公開
Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities
July 9, 2024
著者: Shaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel
cs.AI
要旨
ヘブライ語のような低リソース言語での大規模言語モデル(LLM)のトレーニングは、独特の課題を伴います。本論文では、Mistralモデルを基にしたDictaLM2.0とDictaLM2.0-Instructという2つのLLMを紹介します。これらは、ヘブライ語と英語の約2000億トークンに及ぶ大規模なコーパスでトレーニングされました。事前学習済みモデルを新しい言語に適応させるには、ゼロからモデルをトレーニングする場合や、英語のようなリソース豊富な言語で既存モデルをさらにトレーニングする場合とは大きく異なる専門的な技術が必要です。本論文では、ヘブライ語の言語特性に効果的に学習・適応するための新しいトレーニング手法を概説します。さらに、DictaLM2.0-Instructを包括的な指示データセットでファインチューニングし、タスク固有の指示に対する性能を向上させました。モデルを厳密に評価するため、ヘブライ語LLM評価のための新しいベンチマークスイートを導入しました。これには、質問応答、感情分析、ウィノグラードスキーマチャレンジ、翻訳、要約など多様なタスクが含まれます。本研究は、低リソース言語でのLLMトレーニングの複雑さに対処するだけでなく、他のLLMを様々な非英語言語に適応させるためのフレームワークを提案し、多言語NLPの広範な分野に貢献します。
English
Training large language models (LLMs) in low-resource languages such as
Hebrew poses unique challenges. In this paper, we introduce DictaLM2.0 and
DictaLM2.0-Instruct, two LLMs derived from the Mistral model, trained on a
substantial corpus of approximately 200 billion tokens in both Hebrew and
English. Adapting a pre-trained model to a new language involves specialized
techniques that differ significantly from training a model from scratch or
further training existing models on well-resourced languages such as English.
We outline these novel training methodologies, which facilitate effective
learning and adaptation to the linguistic properties of Hebrew. Additionally,
we fine-tuned DictaLM2.0-Instruct on a comprehensive instruct dataset to
enhance its performance on task-specific instructions. To rigorously evaluate
our models, we introduce a new benchmark suite for Hebrew LLM evaluation,
covering a diverse set of tasks including Question Answering, Sentiment
Analysis, Winograd Schema Challenge, Translation, and Summarization. Our work
not only addresses the intricacies of training LLMs in low-resource languages
but also proposes a framework that can be leveraged for adapting other LLMs to
various non-English languages, contributing to the broader field of
multilingual NLP.Summary
AI-Generated Summary