Het vergemakkelijken van de aanpassing van grote taalmodellen aan het Russisch met Learned Embedding Propagation.
Facilitating large language model Russian adaptation with Learned Embedding Propagation
December 30, 2024
Auteurs: Mikhail Tikhomirov, Daniil Chernyshev
cs.AI
Samenvatting
De snelle vooruitgang van grote taalmodel (LLM) technologieën heeft geleid tot de introductie van krachtige open-source instructie-aangepaste LLMs die dezelfde tekstgeneratiekwaliteit hebben als de toonaangevende tegenhangers zoals GPT-4. Terwijl het opkomen van dergelijke modellen de adoptie van LLM-technologieën versnelt in gevoelige-informatieomgevingen, onthullen de auteurs van dergelijke modellen niet de trainingsgegevens die nodig zijn voor de replicatie van de resultaten, waardoor de prestaties model-exclusief worden. Aangezien deze open-source modellen ook meertalig zijn, vermindert dit op zijn beurt de voordelen van het trainen van op taal gerichte LLMs, aangezien verbeterde inferentie-rekenkracht efficiëntie het enige gegarandeerde voordeel van een dergelijke kostbare procedure wordt. Meer kosteneffectieve opties zoals woordenschatuitbreiding en daaropvolgende voortgezette pre-training worden ook belemmerd door het gebrek aan toegang tot hoogwaardige instructie-aanpassingsgegevens, aangezien dit de belangrijkste factor is achter de resulterende LLM-taakoplossingsmogelijkheden. Om de beperkingen aan te pakken en de kosten van het taalaanpassingsproces te verlagen, stellen we Learned Embedding Propagation (LEP) voor. In tegenstelling tot bestaande benaderingen heeft onze methode lagere trainingsgegevensvereisten vanwege minimale impact op bestaande LLM-kennis, die we versterken met behulp van een nieuw ad-hoc embedding propagatieprocedure die ons in staat stelt de instructie-aanpassingsstap over te slaan en in plaats daarvan de nieuwe taalkennis rechtstreeks in elke bestaande instructie-aangepaste variant te implanteren. We hebben vier Russische woordenschatadaptaties voor LLaMa-3-8B en Mistral-7B geëvalueerd, waarbij we aantoonden dat LEP concurrerend is met traditionele instructie-aanpassingsmethoden, prestaties behaalt die vergelijkbaar zijn met OpenChat 3.5 en LLaMa-3-8B-Instruct, met verdere verbeteringen via zelfkalibratie en voortgezette afstemming die de taakoplossingsmogelijkheden verbeteren.
English
Rapid advancements of large language model (LLM) technologies led to the
introduction of powerful open-source instruction-tuned LLMs that have the same
text generation quality as the state-of-the-art counterparts such as GPT-4.
While the emergence of such models accelerates the adoption of LLM technologies
in sensitive-information environments the authors of such models don not
disclose the training data necessary for replication of the results thus making
the achievements model-exclusive. Since those open-source models are also
multilingual this in turn reduces the benefits of training a language specific
LLMs as improved inference computation efficiency becomes the only guaranteed
advantage of such costly procedure. More cost-efficient options such as
vocabulary extension and subsequent continued pre-training are also inhibited
by the lack of access to high-quality instruction-tuning data since it is the
major factor behind the resulting LLM task-solving capabilities. To address the
limitations and cut the costs of the language adaptation pipeline we propose
Learned Embedding Propagation (LEP). Unlike existing approaches our method has
lower training data size requirements due to minimal impact on existing LLM
knowledge which we reinforce using novel ad-hoc embedding propagation procedure
that allows to skip the instruction-tuning step and instead implant the new
language knowledge directly into any existing instruct-tuned variant. We
evaluated four Russian vocabulary adaptations for LLaMa-3-8B and Mistral-7B,
showing that LEP is competitive with traditional instruction-tuning methods,
achieving performance comparable to OpenChat 3.5 and LLaMa-3-8B-Instruct, with
further improvements via self-calibration and continued tuning enhancing
task-solving capabilities.Summary
AI-Generated Summary