Облегчение адаптации крупных языковых моделей на русский язык с помощью изученного распространения вложений
Facilitating large language model Russian adaptation with Learned Embedding Propagation
December 30, 2024
Авторы: Mikhail Tikhomirov, Daniil Chernyshev
cs.AI
Аннотация
Быстрое развитие технологий крупных языковых моделей (LLM) привело к появлению мощных открытых LLM, настроенных на инструкции, которые обладают таким же качеством генерации текста, как у передовых аналогов, таких как GPT-4. В то время как появление таких моделей ускоряет принятие технологий LLM в средах с чувствительной информацией, авторы таких моделей не раскрывают данные обучения, необходимые для воспроизведения результатов, делая достижения эксклюзивными для модели. Поскольку эти открытые модели также многоязычны, это, в свою очередь, уменьшает преимущества обучения языковым моделям, так как улучшенная эффективность вычислений вывода становится единственным гарантированным преимуществом такой дорогостоящей процедуры. Более экономичные варианты, такие как расширение словаря и последующее продолжение предварительного обучения, также ограничены отсутствием доступа к данным высокого качества для настройки по инструкции, поскольку это является основным фактором, лежащим в основе возможностей решения задач LLM. Для преодоления ограничений и снижения затрат на процесс адаптации языка мы предлагаем метод Learned Embedding Propagation (LEP). В отличие от существующих подходов, наш метод требует меньшего объема данных обучения благодаря минимальному воздействию на существующие знания LLM, которые мы укрепляем с помощью новой процедуры внедрения встраивания ad-hoc, позволяющей пропустить этап настройки по инструкции и вместо этого внедрить новые языковые знания непосредственно в любой существующий вариант, настроенный по инструкции. Мы оценили четыре адаптации русского словаря для LLaMa-3-8B и Mistral-7B, показав, что LEP конкурентоспособен с традиционными методами настройки по инструкции, достигая производительности, сравнимой с OpenChat 3.5 и LLaMa-3-8B-Instruct, с дальнейшими улучшениями через самокалибровку и продолжение настройки, улучшающие возможности решения задач.
English
Rapid advancements of large language model (LLM) technologies led to the
introduction of powerful open-source instruction-tuned LLMs that have the same
text generation quality as the state-of-the-art counterparts such as GPT-4.
While the emergence of such models accelerates the adoption of LLM technologies
in sensitive-information environments the authors of such models don not
disclose the training data necessary for replication of the results thus making
the achievements model-exclusive. Since those open-source models are also
multilingual this in turn reduces the benefits of training a language specific
LLMs as improved inference computation efficiency becomes the only guaranteed
advantage of such costly procedure. More cost-efficient options such as
vocabulary extension and subsequent continued pre-training are also inhibited
by the lack of access to high-quality instruction-tuning data since it is the
major factor behind the resulting LLM task-solving capabilities. To address the
limitations and cut the costs of the language adaptation pipeline we propose
Learned Embedding Propagation (LEP). Unlike existing approaches our method has
lower training data size requirements due to minimal impact on existing LLM
knowledge which we reinforce using novel ad-hoc embedding propagation procedure
that allows to skip the instruction-tuning step and instead implant the new
language knowledge directly into any existing instruct-tuned variant. We
evaluated four Russian vocabulary adaptations for LLaMa-3-8B and Mistral-7B,
showing that LEP is competitive with traditional instruction-tuning methods,
achieving performance comparable to OpenChat 3.5 and LLaMa-3-8B-Instruct, with
further improvements via self-calibration and continued tuning enhancing
task-solving capabilities.Summary
AI-Generated Summary