Adapter les LLM à l'hébreu : Révélation de DictaLM 2.0 avec un vocabulaire enrichi et des capacités d'instruction améliorées
Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities
July 9, 2024
Auteurs: Shaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel
cs.AI
Résumé
L'entraînement de grands modèles de langage (LLMs) pour des langues à ressources limitées comme l'hébreu présente des défis uniques. Dans cet article, nous présentons DictaLM2.0 et DictaLM2.0-Instruct, deux LLMs dérivés du modèle Mistral, entraînés sur un corpus substantiel d'environ 200 milliards de tokens en hébreu et en anglais. L'adaptation d'un modèle pré-entraîné à une nouvelle langue implique des techniques spécialisées qui diffèrent significativement de l'entraînement d'un modèle à partir de zéro ou de l'amélioration de modèles existants pour des langues bien dotées en ressources comme l'anglais. Nous décrivons ces nouvelles méthodologies d'entraînement, qui facilitent un apprentissage et une adaptation efficaces aux propriétés linguistiques de l'hébreu. De plus, nous avons affiné DictaLM2.0-Instruct sur un ensemble de données d'instructions complet pour améliorer ses performances sur des instructions spécifiques à des tâches. Pour évaluer rigoureusement nos modèles, nous introduisons une nouvelle suite de benchmarks pour l'évaluation des LLMs en hébreu, couvrant un ensemble diversifié de tâches incluant la réponse à des questions, l'analyse de sentiments, le défi de schéma Winograd, la traduction et la synthèse. Notre travail aborde non seulement les complexités de l'entraînement des LLMs pour des langues à ressources limitées, mais propose également un cadre qui peut être exploité pour adapter d'autres LLMs à diverses langues non anglaises, contribuant ainsi au domaine plus large du traitement automatique des langues multilingues.
English
Training large language models (LLMs) in low-resource languages such as
Hebrew poses unique challenges. In this paper, we introduce DictaLM2.0 and
DictaLM2.0-Instruct, two LLMs derived from the Mistral model, trained on a
substantial corpus of approximately 200 billion tokens in both Hebrew and
English. Adapting a pre-trained model to a new language involves specialized
techniques that differ significantly from training a model from scratch or
further training existing models on well-resourced languages such as English.
We outline these novel training methodologies, which facilitate effective
learning and adaptation to the linguistic properties of Hebrew. Additionally,
we fine-tuned DictaLM2.0-Instruct on a comprehensive instruct dataset to
enhance its performance on task-specific instructions. To rigorously evaluate
our models, we introduce a new benchmark suite for Hebrew LLM evaluation,
covering a diverse set of tasks including Question Answering, Sentiment
Analysis, Winograd Schema Challenge, Translation, and Summarization. Our work
not only addresses the intricacies of training LLMs in low-resource languages
but also proposes a framework that can be leveraged for adapting other LLMs to
various non-English languages, contributing to the broader field of
multilingual NLP.Summary
AI-Generated Summary