Adaptando LLMs al hebreo: Presentando DictaLM 2.0 con Capacidades Mejoradas de Vocabulario e Instrucción.

Resumen

Entrenar modelos de lenguaje grandes (LLMs) en idiomas de recursos limitados como el hebreo plantea desafíos únicos. En este documento, presentamos DictaLM2.0 y DictaLM2.0-Instruct, dos LLMs derivados del modelo Mistral, entrenados en un corpus sustancial de aproximadamente 200 mil millones de tokens en hebreo e inglés. Adaptar un modelo pre-entrenado a un nuevo idioma implica técnicas especializadas que difieren significativamente de entrenar un modelo desde cero o de continuar el entrenamiento de modelos existentes en idiomas bien dotados como el inglés. Detallamos estas metodologías de entrenamiento novedosas, que facilitan el aprendizaje efectivo y la adaptación a las propiedades lingüísticas del hebreo. Además, afinamos DictaLM2.0-Instruct en un conjunto de datos instructivo exhaustivo para mejorar su rendimiento en instrucciones específicas de tareas. Para evaluar rigurosamente nuestros modelos, presentamos una nueva suite de pruebas de referencia para la evaluación de LLM en hebreo, que abarca una variedad de tareas que incluyen Respuesta a Preguntas, Análisis de Sentimientos, Desafío de Esquemas de Winograd, Traducción y Resumen. Nuestro trabajo no solo aborda las complejidades de entrenar LLMs en idiomas de recursos limitados, sino que también propone un marco que puede ser aprovechado para adaptar otros LLMs a varios idiomas no ingleses, contribuyendo al campo más amplio de PNL multilingüe.

English

Training large language models (LLMs) in low-resource languages such as Hebrew poses unique challenges. In this paper, we introduce DictaLM2.0 and DictaLM2.0-Instruct, two LLMs derived from the Mistral model, trained on a substantial corpus of approximately 200 billion tokens in both Hebrew and English. Adapting a pre-trained model to a new language involves specialized techniques that differ significantly from training a model from scratch or further training existing models on well-resourced languages such as English. We outline these novel training methodologies, which facilitate effective learning and adaptation to the linguistic properties of Hebrew. Additionally, we fine-tuned DictaLM2.0-Instruct on a comprehensive instruct dataset to enhance its performance on task-specific instructions. To rigorously evaluate our models, we introduce a new benchmark suite for Hebrew LLM evaluation, covering a diverse set of tasks including Question Answering, Sentiment Analysis, Winograd Schema Challenge, Translation, and Summarization. Our work not only addresses the intricacies of training LLMs in low-resource languages but also proposes a framework that can be leveraged for adapting other LLMs to various non-English languages, contributing to the broader field of multilingual NLP.

Adaptando LLMs al hebreo: Presentando DictaLM 2.0 con Capacidades Mejoradas de Vocabulario e Instrucción.

Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities

Resumen

Support