Adaptando LLMs al hebreo: Presentando DictaLM 2.0 con Capacidades Mejoradas de Vocabulario e Instrucción.
Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities
July 9, 2024
Autores: Shaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel
cs.AI
Resumen
Entrenar modelos de lenguaje grandes (LLMs) en idiomas de recursos limitados como el hebreo plantea desafíos únicos. En este documento, presentamos DictaLM2.0 y DictaLM2.0-Instruct, dos LLMs derivados del modelo Mistral, entrenados en un corpus sustancial de aproximadamente 200 mil millones de tokens en hebreo e inglés. Adaptar un modelo pre-entrenado a un nuevo idioma implica técnicas especializadas que difieren significativamente de entrenar un modelo desde cero o de continuar el entrenamiento de modelos existentes en idiomas bien dotados como el inglés. Detallamos estas metodologías de entrenamiento novedosas, que facilitan el aprendizaje efectivo y la adaptación a las propiedades lingüísticas del hebreo. Además, afinamos DictaLM2.0-Instruct en un conjunto de datos instructivo exhaustivo para mejorar su rendimiento en instrucciones específicas de tareas. Para evaluar rigurosamente nuestros modelos, presentamos una nueva suite de pruebas de referencia para la evaluación de LLM en hebreo, que abarca una variedad de tareas que incluyen Respuesta a Preguntas, Análisis de Sentimientos, Desafío de Esquemas de Winograd, Traducción y Resumen. Nuestro trabajo no solo aborda las complejidades de entrenar LLMs en idiomas de recursos limitados, sino que también propone un marco que puede ser aprovechado para adaptar otros LLMs a varios idiomas no ingleses, contribuyendo al campo más amplio de PNL multilingüe.
English
Training large language models (LLMs) in low-resource languages such as
Hebrew poses unique challenges. In this paper, we introduce DictaLM2.0 and
DictaLM2.0-Instruct, two LLMs derived from the Mistral model, trained on a
substantial corpus of approximately 200 billion tokens in both Hebrew and
English. Adapting a pre-trained model to a new language involves specialized
techniques that differ significantly from training a model from scratch or
further training existing models on well-resourced languages such as English.
We outline these novel training methodologies, which facilitate effective
learning and adaptation to the linguistic properties of Hebrew. Additionally,
we fine-tuned DictaLM2.0-Instruct on a comprehensive instruct dataset to
enhance its performance on task-specific instructions. To rigorously evaluate
our models, we introduce a new benchmark suite for Hebrew LLM evaluation,
covering a diverse set of tasks including Question Answering, Sentiment
Analysis, Winograd Schema Challenge, Translation, and Summarization. Our work
not only addresses the intricacies of training LLMs in low-resource languages
but also proposes a framework that can be leveraged for adapting other LLMs to
various non-English languages, contributing to the broader field of
multilingual NLP.Summary
AI-Generated Summary