Adattamento di LLM all'ebraico: presentazione di DictaLM 2.0 con vocabolario ampliato e capacità di istruzione potenziate
Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities
July 9, 2024
Autori: Shaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel
cs.AI
Abstract
L'addestramento di grandi modelli linguistici (LLM) in lingue con risorse limitate come l'ebraico presenta sfide uniche. In questo articolo, presentiamo DictaLM2.0 e DictaLM2.0-Instruct, due LLM derivati dal modello Mistral, addestrati su un corpus sostanziale di circa 200 miliardi di token in ebraico e inglese. L'adattamento di un modello pre-addestrato a una nuova lingua richiede tecniche specializzate che differiscono significativamente dall'addestramento di un modello da zero o dall'ulteriore addestramento di modelli esistenti su lingue ben dotate di risorse come l'inglese. Descriviamo queste nuove metodologie di addestramento, che facilitano un apprendimento efficace e l'adattamento alle proprietà linguistiche dell'ebraico. Inoltre, abbiamo ottimizzato DictaLM2.0-Instruct su un dataset completo di istruzioni per migliorare le sue prestazioni su istruzioni specifiche per i compiti. Per valutare rigorosamente i nostri modelli, introduciamo una nuova suite di benchmark per la valutazione degli LLM in ebraico, che copre un'ampia gamma di compiti tra cui Risposta alle Domande, Analisi del Sentimento, Sfida di Schema Winograd, Traduzione e Riassunto. Il nostro lavoro non solo affronta le complessità dell'addestramento di LLM in lingue con risorse limitate, ma propone anche un framework che può essere sfruttato per adattare altri LLM a varie lingue non inglesi, contribuendo al campo più ampio dell'NLP multilingue.
English
Training large language models (LLMs) in low-resource languages such as
Hebrew poses unique challenges. In this paper, we introduce DictaLM2.0 and
DictaLM2.0-Instruct, two LLMs derived from the Mistral model, trained on a
substantial corpus of approximately 200 billion tokens in both Hebrew and
English. Adapting a pre-trained model to a new language involves specialized
techniques that differ significantly from training a model from scratch or
further training existing models on well-resourced languages such as English.
We outline these novel training methodologies, which facilitate effective
learning and adaptation to the linguistic properties of Hebrew. Additionally,
we fine-tuned DictaLM2.0-Instruct on a comprehensive instruct dataset to
enhance its performance on task-specific instructions. To rigorously evaluate
our models, we introduce a new benchmark suite for Hebrew LLM evaluation,
covering a diverse set of tasks including Question Answering, Sentiment
Analysis, Winograd Schema Challenge, Translation, and Summarization. Our work
not only addresses the intricacies of training LLMs in low-resource languages
but also proposes a framework that can be leveraged for adapting other LLMs to
various non-English languages, contributing to the broader field of
multilingual NLP.