LLM's aanpassen aan het Hebreeuws: Onthulling van DictaLM 2.0 met verbeterde vocabulaire en instructiecapaciteiten
Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities
July 9, 2024
Auteurs: Shaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel
cs.AI
Samenvatting
Het trainen van grote taalmmodellen (LLMs) in talen met beperkte bronnen, zoals Hebreeuws, brengt unieke uitdagingen met zich mee. In dit artikel introduceren we DictaLM2.0 en DictaLM2.0-Instruct, twee LLMs die zijn afgeleid van het Mistral-model en getraind zijn op een omvangrijk corpus van ongeveer 200 miljard tokens in zowel Hebreeuws als Engels. Het aanpassen van een vooraf getraind model aan een nieuwe taal vereist gespecialiseerde technieken die aanzienlijk verschillen van het trainen van een model vanaf nul of het verder trainen van bestaande modellen op talen met veel bronnen, zoals Engels. We beschrijven deze nieuwe trainingsmethodologieën, die effectief leren en aanpassing aan de linguïstische eigenschappen van Hebreeuws mogelijk maken. Daarnaast hebben we DictaLM2.0-Instruct verfijnd op een uitgebreide instruct-dataset om de prestaties op taakspecifieke instructies te verbeteren. Om onze modellen grondig te evalueren, introduceren we een nieuwe benchmark-suite voor de evaluatie van Hebreeuwse LLMs, die een diverse set taken omvat, waaronder Vraag Beantwoorden, Sentimentanalyse, Winograd Schema Challenge, Vertaling en Samenvatting. Ons werk behandelt niet alleen de complexiteit van het trainen van LLMs in talen met beperkte bronnen, maar stelt ook een raamwerk voor dat kan worden gebruikt om andere LLMs aan te passen aan verschillende niet-Engelse talen, wat bijdraagt aan het bredere veld van meertalige NLP.
English
Training large language models (LLMs) in low-resource languages such as
Hebrew poses unique challenges. In this paper, we introduce DictaLM2.0 and
DictaLM2.0-Instruct, two LLMs derived from the Mistral model, trained on a
substantial corpus of approximately 200 billion tokens in both Hebrew and
English. Adapting a pre-trained model to a new language involves specialized
techniques that differ significantly from training a model from scratch or
further training existing models on well-resourced languages such as English.
We outline these novel training methodologies, which facilitate effective
learning and adaptation to the linguistic properties of Hebrew. Additionally,
we fine-tuned DictaLM2.0-Instruct on a comprehensive instruct dataset to
enhance its performance on task-specific instructions. To rigorously evaluate
our models, we introduce a new benchmark suite for Hebrew LLM evaluation,
covering a diverse set of tasks including Question Answering, Sentiment
Analysis, Winograd Schema Challenge, Translation, and Summarization. Our work
not only addresses the intricacies of training LLMs in low-resource languages
but also proposes a framework that can be leveraged for adapting other LLMs to
various non-English languages, contributing to the broader field of
multilingual NLP.