ChatPaper.aiChatPaper

Adaptando LLMs para o Hebraico: Revelando o DictaLM 2.0 com Vocabulário Aprimorado e Capacidades de Instrução

Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities

July 9, 2024
Autores: Shaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel
cs.AI

Resumo

O treinamento de grandes modelos de linguagem (LLMs) em idiomas de baixos recursos, como o hebraico, apresenta desafios únicos. Neste artigo, apresentamos o DictaLM2.0 e o DictaLM2.0-Instruct, dois LLMs derivados do modelo Mistral, treinados em um corpus substancial de aproximadamente 200 bilhões de tokens em hebraico e inglês. Adaptar um modelo pré-treinado para um novo idioma envolve técnicas especializadas que diferem significativamente do treinamento de um modelo do zero ou do treinamento adicional de modelos existentes em idiomas bem providos, como o inglês. Detalhamos essas metodologias de treinamento inovadoras, que facilitam a aprendizagem eficaz e a adaptação às propriedades linguísticas do hebraico. Além disso, refinamos o DictaLM2.0-Instruct em um conjunto abrangente de dados de instruções para aprimorar seu desempenho em instruções específicas de tarefas. Para avaliar rigorosamente nossos modelos, introduzimos uma nova suíte de referência para avaliação de LLMs em hebraico, abrangendo uma variedade de tarefas, incluindo Resposta a Perguntas, Análise de Sentimentos, Desafio de Esquema de Winograd, Tradução e Sumarização. Nosso trabalho não apenas aborda as complexidades do treinamento de LLMs em idiomas de baixos recursos, mas também propõe um framework que pode ser aproveitado para adaptar outros LLMs a vários idiomas não ingleses, contribuindo para o campo mais amplo de PNL multilíngue.
English
Training large language models (LLMs) in low-resource languages such as Hebrew poses unique challenges. In this paper, we introduce DictaLM2.0 and DictaLM2.0-Instruct, two LLMs derived from the Mistral model, trained on a substantial corpus of approximately 200 billion tokens in both Hebrew and English. Adapting a pre-trained model to a new language involves specialized techniques that differ significantly from training a model from scratch or further training existing models on well-resourced languages such as English. We outline these novel training methodologies, which facilitate effective learning and adaptation to the linguistic properties of Hebrew. Additionally, we fine-tuned DictaLM2.0-Instruct on a comprehensive instruct dataset to enhance its performance on task-specific instructions. To rigorously evaluate our models, we introduce a new benchmark suite for Hebrew LLM evaluation, covering a diverse set of tasks including Question Answering, Sentiment Analysis, Winograd Schema Challenge, Translation, and Summarization. Our work not only addresses the intricacies of training LLMs in low-resource languages but also proposes a framework that can be leveraged for adapting other LLMs to various non-English languages, contributing to the broader field of multilingual NLP.
PDF221November 28, 2024