ChatPaper.aiChatPaper

Anpassung von LLMs an Hebräisch: Enthüllung von DictaLM 2.0 mit erweiterter Vokabular- und Anleitungsfähigkeit.

Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities

July 9, 2024
Autoren: Shaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel
cs.AI

Zusammenfassung

Das Training großer Sprachmodelle (LLMs) in Sprachen mit geringen Ressourcen wie Hebräisch birgt einzigartige Herausforderungen. In diesem Paper stellen wir DictaLM2.0 und DictaLM2.0-Instruct vor, zwei LLMs, die aus dem Mistral-Modell abgeleitet sind und auf einem umfangreichen Korpus von etwa 200 Milliarden Tokens sowohl in Hebräisch als auch in Englisch trainiert wurden. Die Anpassung eines vortrainierten Modells an eine neue Sprache erfordert spezialisierte Techniken, die sich deutlich von der Schulung eines Modells von Grund auf oder dem weiteren Training bestehender Modelle in gut ausgestatteten Sprachen wie Englisch unterscheiden. Wir skizzieren diese neuartigen Schulungsmethoden, die ein effektives Lernen und die Anpassung an die sprachlichen Eigenschaften des Hebräischen erleichtern. Darüber hinaus haben wir DictaLM2.0-Instruct an einem umfassenden Instruct-Datensatz feinabgestimmt, um seine Leistung bei aufgabenbezogenen Anweisungen zu verbessern. Um unsere Modelle rigoros zu bewerten, führen wir eine neue Benchmark-Suite für die Bewertung von Hebräisch LLM ein, die eine vielfältige Reihe von Aufgaben abdeckt, darunter Frage-Antwort, Sentiment-Analyse, Winograd-Schema-Herausforderung, Übersetzung und Zusammenfassung. Unsere Arbeit behandelt nicht nur die Feinheiten des Trainings von LLMs in Sprachen mit geringen Ressourcen, sondern schlägt auch einen Rahmen vor, der für die Anpassung anderer LLMs an verschiedene nicht-englische Sprachen genutzt werden kann und somit zum breiteren Bereich des mehrsprachigen NLP beiträgt.
English
Training large language models (LLMs) in low-resource languages such as Hebrew poses unique challenges. In this paper, we introduce DictaLM2.0 and DictaLM2.0-Instruct, two LLMs derived from the Mistral model, trained on a substantial corpus of approximately 200 billion tokens in both Hebrew and English. Adapting a pre-trained model to a new language involves specialized techniques that differ significantly from training a model from scratch or further training existing models on well-resourced languages such as English. We outline these novel training methodologies, which facilitate effective learning and adaptation to the linguistic properties of Hebrew. Additionally, we fine-tuned DictaLM2.0-Instruct on a comprehensive instruct dataset to enhance its performance on task-specific instructions. To rigorously evaluate our models, we introduce a new benchmark suite for Hebrew LLM evaluation, covering a diverse set of tasks including Question Answering, Sentiment Analysis, Winograd Schema Challenge, Translation, and Summarization. Our work not only addresses the intricacies of training LLMs in low-resource languages but also proposes a framework that can be leveraged for adapting other LLMs to various non-English languages, contributing to the broader field of multilingual NLP.

Summary

AI-Generated Summary

PDF221November 28, 2024