Facilitando la adaptación al ruso de modelos de lenguaje grandes con Propagación de Incrustaciones Aprendidas
Facilitating large language model Russian adaptation with Learned Embedding Propagation
December 30, 2024
Autores: Mikhail Tikhomirov, Daniil Chernyshev
cs.AI
Resumen
Los rápidos avances de las tecnologías de modelos de lenguaje grandes (MLG) han dado lugar a la introducción de potentes MLG de código abierto ajustados a instrucciones que poseen la misma calidad de generación de texto que los modelos de vanguardia como GPT-4. Si bien la aparición de tales modelos acelera la adopción de tecnologías MLG en entornos de información sensible, los autores de dichos modelos no revelan los datos de entrenamiento necesarios para replicar los resultados, lo que hace que los logros sean exclusivos del modelo. Dado que estos modelos de código abierto son también multilingües, esto a su vez reduce los beneficios de entrenar MLG específicos de un idioma, ya que la mejora en la eficiencia computacional de inferencia se convierte en la única ventaja garantizada de dicho procedimiento costoso. Opciones más rentables como la extensión de vocabulario y el posterior pre-entrenamiento continuo se ven obstaculizadas por la falta de acceso a datos de ajuste de instrucciones de alta calidad, ya que este es el principal factor detrás de las capacidades resultantes de resolución de tareas de MLG. Para abordar las limitaciones y reducir los costos del proceso de adaptación lingüística, proponemos la Propagación de Incrustaciones Aprendidas (LEP). A diferencia de los enfoques existentes, nuestro método tiene requisitos de tamaño de datos de entrenamiento más bajos debido al impacto mínimo en el conocimiento existente de MLG, que reforzamos mediante un novedoso procedimiento de propagación de incrustaciones ad hoc que permite omitir el paso de ajuste de instrucciones e implantar directamente el nuevo conocimiento del idioma en cualquier variante de MLG ajustada a instrucciones existente. Evaluamos cuatro adaptaciones de vocabulario en ruso para LLaMa-3-8B y Mistral-7B, demostrando que LEP es competitivo con los métodos tradicionales de ajuste de instrucciones, logrando un rendimiento comparable a OpenChat 3.5 y LLaMa-3-8B-Instruct, con mejoras adicionales a través de la auto-calibración y el ajuste continuo que mejoran las capacidades de resolución de tareas.
English
Rapid advancements of large language model (LLM) technologies led to the
introduction of powerful open-source instruction-tuned LLMs that have the same
text generation quality as the state-of-the-art counterparts such as GPT-4.
While the emergence of such models accelerates the adoption of LLM technologies
in sensitive-information environments the authors of such models don not
disclose the training data necessary for replication of the results thus making
the achievements model-exclusive. Since those open-source models are also
multilingual this in turn reduces the benefits of training a language specific
LLMs as improved inference computation efficiency becomes the only guaranteed
advantage of such costly procedure. More cost-efficient options such as
vocabulary extension and subsequent continued pre-training are also inhibited
by the lack of access to high-quality instruction-tuning data since it is the
major factor behind the resulting LLM task-solving capabilities. To address the
limitations and cut the costs of the language adaptation pipeline we propose
Learned Embedding Propagation (LEP). Unlike existing approaches our method has
lower training data size requirements due to minimal impact on existing LLM
knowledge which we reinforce using novel ad-hoc embedding propagation procedure
that allows to skip the instruction-tuning step and instead implant the new
language knowledge directly into any existing instruct-tuned variant. We
evaluated four Russian vocabulary adaptations for LLaMa-3-8B and Mistral-7B,
showing that LEP is competitive with traditional instruction-tuning methods,
achieving performance comparable to OpenChat 3.5 and LLaMa-3-8B-Instruct, with
further improvements via self-calibration and continued tuning enhancing
task-solving capabilities.Summary
AI-Generated Summary