Faciliter l'adaptation en russe de grands modèles de langage avec la propagation d'incorporation apprise
Facilitating large language model Russian adaptation with Learned Embedding Propagation
December 30, 2024
Auteurs: Mikhail Tikhomirov, Daniil Chernyshev
cs.AI
Résumé
Les avancées rapides des technologies de grands modèles de langage (GML) ont conduit à l'introduction de puissants GML open-source ajustés aux instructions qui présentent la même qualité de génération de texte que les modèles de pointe tels que GPT-4. Alors que l'émergence de tels modèles accélère l'adoption des technologies de GML dans des environnements d'informations sensibles, les auteurs de ces modèles ne divulguent pas les données d'entraînement nécessaires pour la reproduction des résultats, rendant ainsi les réalisations exclusives au modèle. Étant donné que ces modèles open-source sont également multilingues, cela réduit à son tour les avantages de l'entraînement de GML spécifiques à une langue, car une efficacité améliorée de calcul d'inférence devient le seul avantage garanti de cette procédure coûteuse. Des options plus rentables telles que l'extension du vocabulaire et la poursuite ultérieure de la pré-formation sont également entravées par le manque d'accès à des données d'ajustement d'instructions de haute qualité, car c'est le principal facteur derrière les capacités de résolution de tâches des GML résultants. Pour remédier aux limitations et réduire les coûts du pipeline d'adaptation linguistique, nous proposons la Propagation d'Incorporation Apprise (LEP). Contrairement aux approches existantes, notre méthode nécessite une taille de données d'entraînement plus faible en raison de l'impact minimal sur les connaissances existantes des GML, que nous renforçons à l'aide d'une procédure novatrice de propagation d'incorporation ad hoc qui permet de sauter l'étape d'ajustement des instructions et d'implanter directement les nouvelles connaissances linguistiques dans n'importe quelle variante ajustée aux instructions existante. Nous avons évalué quatre adaptations de vocabulaire russe pour LLaMa-3-8B et Mistral-7B, montrant que LEP est compétitif avec les méthodes d'ajustement d'instructions traditionnelles, atteignant des performances comparables à OpenChat 3.5 et LLaMa-3-8B-Instruct, avec des améliorations supplémentaires via l'auto-étalonnage et le réglage continu améliorant les capacités de résolution de tâches.
English
Rapid advancements of large language model (LLM) technologies led to the
introduction of powerful open-source instruction-tuned LLMs that have the same
text generation quality as the state-of-the-art counterparts such as GPT-4.
While the emergence of such models accelerates the adoption of LLM technologies
in sensitive-information environments the authors of such models don not
disclose the training data necessary for replication of the results thus making
the achievements model-exclusive. Since those open-source models are also
multilingual this in turn reduces the benefits of training a language specific
LLMs as improved inference computation efficiency becomes the only guaranteed
advantage of such costly procedure. More cost-efficient options such as
vocabulary extension and subsequent continued pre-training are also inhibited
by the lack of access to high-quality instruction-tuning data since it is the
major factor behind the resulting LLM task-solving capabilities. To address the
limitations and cut the costs of the language adaptation pipeline we propose
Learned Embedding Propagation (LEP). Unlike existing approaches our method has
lower training data size requirements due to minimal impact on existing LLM
knowledge which we reinforce using novel ad-hoc embedding propagation procedure
that allows to skip the instruction-tuning step and instead implant the new
language knowledge directly into any existing instruct-tuned variant. We
evaluated four Russian vocabulary adaptations for LLaMa-3-8B and Mistral-7B,
showing that LEP is competitive with traditional instruction-tuning methods,
achieving performance comparable to OpenChat 3.5 and LLaMa-3-8B-Instruct, with
further improvements via self-calibration and continued tuning enhancing
task-solving capabilities.Summary
AI-Generated Summary