Адаптация LLM к ивриту: Раскрытие DictaLM 2.0 с улучшенным словарным запасом и возможностями обучения.

Аннотация

Обучение больших языковых моделей (LLM) на языках с ограниченными ресурсами, таких как иврит, представляет уникальные вызовы. В данной статье мы представляем DictaLM2.0 и DictaLM2.0-Instruct, две LLM, производные от модели Mistral, обученные на значительном корпусе примерно 200 миллиардов токенов как на иврите, так и на английском языке. Адаптация предварительно обученной модели к новому языку включает специализированные техники, значительно отличающиеся от обучения модели с нуля или дополнительного обучения существующих моделей на языках с хорошими ресурсами, таких как английский. Мы излагаем эти новаторские методики обучения, которые облегчают эффективное обучение и адаптацию к лингвистическим особенностям иврита. Кроме того, мы донастраиваем DictaLM2.0-Instruct на обширном наборе данных для инструкций, чтобы улучшить его производительность на задачах с конкретными инструкциями. Для строгой оценки наших моделей мы представляем новый набор тестов для оценки ивритских LLM, охватывающий разнообразный набор задач, включая вопросно-ответные системы, анализ тональности, задачу Винограда, перевод и реферирование. Наша работа не только рассматривает тонкости обучения LLM на языках с ограниченными ресурсами, но также предлагает фреймворк, который можно использовать для адаптации других LLM на различные неанглийские языки, внося свой вклад в область многоязычной обработки естественного языка.

English

Training large language models (LLMs) in low-resource languages such as Hebrew poses unique challenges. In this paper, we introduce DictaLM2.0 and DictaLM2.0-Instruct, two LLMs derived from the Mistral model, trained on a substantial corpus of approximately 200 billion tokens in both Hebrew and English. Adapting a pre-trained model to a new language involves specialized techniques that differ significantly from training a model from scratch or further training existing models on well-resourced languages such as English. We outline these novel training methodologies, which facilitate effective learning and adaptation to the linguistic properties of Hebrew. Additionally, we fine-tuned DictaLM2.0-Instruct on a comprehensive instruct dataset to enhance its performance on task-specific instructions. To rigorously evaluate our models, we introduce a new benchmark suite for Hebrew LLM evaluation, covering a diverse set of tasks including Question Answering, Sentiment Analysis, Winograd Schema Challenge, Translation, and Summarization. Our work not only addresses the intricacies of training LLMs in low-resource languages but also proposes a framework that can be leveraged for adapting other LLMs to various non-English languages, contributing to the broader field of multilingual NLP.

Адаптация LLM к ивриту: Раскрытие DictaLM 2.0 с улучшенным словарным запасом и возможностями обучения.

Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities

Аннотация

Support