Адаптация LLM к ивриту: Раскрытие DictaLM 2.0 с улучшенным словарным запасом и возможностями обучения.
Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities
July 9, 2024
Авторы: Shaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel
cs.AI
Аннотация
Обучение больших языковых моделей (LLM) на языках с ограниченными ресурсами, таких как иврит, представляет уникальные вызовы. В данной статье мы представляем DictaLM2.0 и DictaLM2.0-Instruct, две LLM, производные от модели Mistral, обученные на значительном корпусе примерно 200 миллиардов токенов как на иврите, так и на английском языке. Адаптация предварительно обученной модели к новому языку включает специализированные техники, значительно отличающиеся от обучения модели с нуля или дополнительного обучения существующих моделей на языках с хорошими ресурсами, таких как английский. Мы излагаем эти новаторские методики обучения, которые облегчают эффективное обучение и адаптацию к лингвистическим особенностям иврита. Кроме того, мы донастраиваем DictaLM2.0-Instruct на обширном наборе данных для инструкций, чтобы улучшить его производительность на задачах с конкретными инструкциями. Для строгой оценки наших моделей мы представляем новый набор тестов для оценки ивритских LLM, охватывающий разнообразный набор задач, включая вопросно-ответные системы, анализ тональности, задачу Винограда, перевод и реферирование. Наша работа не только рассматривает тонкости обучения LLM на языках с ограниченными ресурсами, но также предлагает фреймворк, который можно использовать для адаптации других LLM на различные неанглийские языки, внося свой вклад в область многоязычной обработки естественного языка.
English
Training large language models (LLMs) in low-resource languages such as
Hebrew poses unique challenges. In this paper, we introduce DictaLM2.0 and
DictaLM2.0-Instruct, two LLMs derived from the Mistral model, trained on a
substantial corpus of approximately 200 billion tokens in both Hebrew and
English. Adapting a pre-trained model to a new language involves specialized
techniques that differ significantly from training a model from scratch or
further training existing models on well-resourced languages such as English.
We outline these novel training methodologies, which facilitate effective
learning and adaptation to the linguistic properties of Hebrew. Additionally,
we fine-tuned DictaLM2.0-Instruct on a comprehensive instruct dataset to
enhance its performance on task-specific instructions. To rigorously evaluate
our models, we introduce a new benchmark suite for Hebrew LLM evaluation,
covering a diverse set of tasks including Question Answering, Sentiment
Analysis, Winograd Schema Challenge, Translation, and Summarization. Our work
not only addresses the intricacies of training LLMs in low-resource languages
but also proposes a framework that can be leveraged for adapting other LLMs to
various non-English languages, contributing to the broader field of
multilingual NLP.