Die Anpassung großer Sprachmodelle für die russische Sprache durch gelernte Embedding-Propagation.
Facilitating large language model Russian adaptation with Learned Embedding Propagation
December 30, 2024
Autoren: Mikhail Tikhomirov, Daniil Chernyshev
cs.AI
Zusammenfassung
Die raschen Fortschritte bei Technologien großer Sprachmodelle (LLM) führten zur Einführung leistungsstarker Open-Source-Instruktions-abgestimmter LLMs, die über die gleiche Textgenerierungsqualität wie Spitzenmodelle wie GPT-4 verfügen. Während das Aufkommen solcher Modelle die Übernahme von LLM-Technologien in sensiblen Informationsumgebungen beschleunigt, offenbaren die Autoren solcher Modelle nicht die für die Reproduktion der Ergebnisse erforderlichen Trainingsdaten, wodurch die Errungenschaften modellspezifisch werden. Da diese Open-Source-Modelle auch mehrsprachig sind, verringert sich dadurch der Nutzen des Trainings von sprachspezifischen LLMs, da eine verbesserte Inferenzberechnungseffizienz der einzige garantierte Vorteil dieses kostspieligen Verfahrens ist. Kostengünstigere Optionen wie die Erweiterung des Vokabulars und anschließendes fortgesetztes Vor-Training werden auch durch den Mangel an Zugang zu hochwertigen Instruktions-Abstimmungsdaten behindert, da dies der Hauptfaktor für die resultierenden Fähigkeiten der LLM-Aufgabenlösung ist. Um die Einschränkungen zu bewältigen und die Kosten des Sprachanpassungsprozesses zu senken, schlagen wir Learned Embedding Propagation (LEP) vor. Im Gegensatz zu bestehenden Ansätzen hat unsere Methode aufgrund des minimalen Einflusses auf vorhandenes LLM-Wissen geringere Anforderungen an die Trainingsdatengröße, das wir mithilfe eines neuartigen Ad-hoc-Embedding-Propagationsverfahrens verstärken, das es ermöglicht, den Schritt der Instruktions-Abstimmung zu überspringen und stattdessen das neue Sprachwissen direkt in jede vorhandene instruktions-abgestimmte Variante zu implementieren. Wir haben vier russische Vokabelanpassungen für LLaMa-3-8B und Mistral-7B evaluiert und gezeigt, dass LEP mit traditionellen Instruktions-Abstimmungsmethoden konkurrieren kann, indem eine Leistung erzielt wird, die mit OpenChat 3.5 und LLaMa-3-8B-Instruct vergleichbar ist, wobei weitere Verbesserungen durch Selbstkalibrierung und fortgesetzte Abstimmung die Fähigkeiten zur Aufgabenlösung verbessern.
English
Rapid advancements of large language model (LLM) technologies led to the
introduction of powerful open-source instruction-tuned LLMs that have the same
text generation quality as the state-of-the-art counterparts such as GPT-4.
While the emergence of such models accelerates the adoption of LLM technologies
in sensitive-information environments the authors of such models don not
disclose the training data necessary for replication of the results thus making
the achievements model-exclusive. Since those open-source models are also
multilingual this in turn reduces the benefits of training a language specific
LLMs as improved inference computation efficiency becomes the only guaranteed
advantage of such costly procedure. More cost-efficient options such as
vocabulary extension and subsequent continued pre-training are also inhibited
by the lack of access to high-quality instruction-tuning data since it is the
major factor behind the resulting LLM task-solving capabilities. To address the
limitations and cut the costs of the language adaptation pipeline we propose
Learned Embedding Propagation (LEP). Unlike existing approaches our method has
lower training data size requirements due to minimal impact on existing LLM
knowledge which we reinforce using novel ad-hoc embedding propagation procedure
that allows to skip the instruction-tuning step and instead implant the new
language knowledge directly into any existing instruct-tuned variant. We
evaluated four Russian vocabulary adaptations for LLaMa-3-8B and Mistral-7B,
showing that LEP is competitive with traditional instruction-tuning methods,
achieving performance comparable to OpenChat 3.5 and LLaMa-3-8B-Instruct, with
further improvements via self-calibration and continued tuning enhancing
task-solving capabilities.Summary
AI-Generated Summary