Trans-tokenisation et transferts de vocabulaire multilingues : adaptation linguistique des LLM pour le TALN en contexte de ressources limitées
Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP
August 8, 2024
Auteurs: François Remy, Pieter Delobelle, Hayastan Avetisyan, Alfiya Khabibullina, Miryam de Lhoneux, Thomas Demeester
cs.AI
Résumé
Le développement de modèles de langage monolingues pour les langues à ressources faibles et intermédiaires continue d'être entravé par la difficulté à obtenir des données d'entraînement de haute qualité. Dans cette étude, nous présentons une nouvelle stratégie de transfert de vocabulaire translingue, la trans-tokenisation, conçue pour relever ce défi et permettre une adaptation linguistique plus efficace. Notre approche se concentre sur l'adaptation d'un modèle de langage monolingue à ressources élevées à une langue cible inconnue en initialisant les embeddings de tokens de la langue cible à l'aide d'une moyenne pondérée des embeddings de tokens sémantiquement similaires de la langue source. Pour cela, nous exploitons une ressource de traduction couvrant à la fois la langue source et la langue cible. Nous validons notre méthode avec les Tweeties, une série de modèles de langage trans-tokenisés, et démontrons leur performance compétitive sur diverses tâches en aval à travers un ensemble petit mais diversifié de langues. De plus, nous introduisons les Hydra LLMs, des modèles dotés de plusieurs têtes de modélisation linguistique et tables d'embeddings interchangeables, qui étendent encore les capacités de notre stratégie de trans-tokenisation. En concevant un Hydra LLM basé sur le modèle multilingue TowerInstruct, nous avons développé un modèle de traduction automatique de pointe pour le tatar, de manière zero-shot, contournant complètement le besoin de données parallèles de haute qualité. Cette avancée est particulièrement significative pour les langues à faibles ressources comme le tatar, où les données parallèles de haute qualité sont difficiles à obtenir. En réduisant les exigences en données et en temps pour l'entraînement de modèles de haute qualité, notre stratégie de trans-tokenisation permet le développement de modèles de langage pour un plus large éventail de langues, en particulier celles avec des ressources limitées. Nous espérons que notre travail inspirera des recherches et collaborations supplémentaires dans le domaine du transfert de vocabulaire translingue et contribuera à l'émancipation des langues à l'échelle mondiale.
English
The development of monolingual language models for low and mid-resource
languages continues to be hindered by the difficulty in sourcing high-quality
training data. In this study, we present a novel cross-lingual vocabulary
transfer strategy, trans-tokenization, designed to tackle this challenge and
enable more efficient language adaptation. Our approach focuses on adapting a
high-resource monolingual LLM to an unseen target language by initializing the
token embeddings of the target language using a weighted average of
semantically similar token embeddings from the source language. For this, we
leverage a translation resource covering both the source and target languages.
We validate our method with the Tweeties, a series of trans-tokenized LLMs, and
demonstrate their competitive performance on various downstream tasks across a
small but diverse set of languages. Additionally, we introduce Hydra LLMs,
models with multiple swappable language modeling heads and embedding tables,
which further extend the capabilities of our trans-tokenization strategy. By
designing a Hydra LLM based on the multilingual model TowerInstruct, we
developed a state-of-the-art machine translation model for Tatar, in a
zero-shot manner, completely bypassing the need for high-quality parallel data.
This breakthrough is particularly significant for low-resource languages like
Tatar, where high-quality parallel data is hard to come by. By lowering the
data and time requirements for training high-quality models, our
trans-tokenization strategy allows for the development of LLMs for a wider
range of languages, especially those with limited resources. We hope that our
work will inspire further research and collaboration in the field of
cross-lingual vocabulary transfer and contribute to the empowerment of
languages on a global scale.Summary
AI-Generated Summary