Trans-tokenisation et transferts de vocabulaire multilingues : adaptation linguistique des LLM pour le TALN en contexte de ressources limitées

papers.abstract

Le développement de modèles de langage monolingues pour les langues à ressources faibles et intermédiaires continue d'être entravé par la difficulté à obtenir des données d'entraînement de haute qualité. Dans cette étude, nous présentons une nouvelle stratégie de transfert de vocabulaire translingue, la trans-tokenisation, conçue pour relever ce défi et permettre une adaptation linguistique plus efficace. Notre approche se concentre sur l'adaptation d'un modèle de langage monolingue à ressources élevées à une langue cible inconnue en initialisant les embeddings de tokens de la langue cible à l'aide d'une moyenne pondérée des embeddings de tokens sémantiquement similaires de la langue source. Pour cela, nous exploitons une ressource de traduction couvrant à la fois la langue source et la langue cible. Nous validons notre méthode avec les Tweeties, une série de modèles de langage trans-tokenisés, et démontrons leur performance compétitive sur diverses tâches en aval à travers un ensemble petit mais diversifié de langues. De plus, nous introduisons les Hydra LLMs, des modèles dotés de plusieurs têtes de modélisation linguistique et tables d'embeddings interchangeables, qui étendent encore les capacités de notre stratégie de trans-tokenisation. En concevant un Hydra LLM basé sur le modèle multilingue TowerInstruct, nous avons développé un modèle de traduction automatique de pointe pour le tatar, de manière zero-shot, contournant complètement le besoin de données parallèles de haute qualité. Cette avancée est particulièrement significative pour les langues à faibles ressources comme le tatar, où les données parallèles de haute qualité sont difficiles à obtenir. En réduisant les exigences en données et en temps pour l'entraînement de modèles de haute qualité, notre stratégie de trans-tokenisation permet le développement de modèles de langage pour un plus large éventail de langues, en particulier celles avec des ressources limitées. Nous espérons que notre travail inspirera des recherches et collaborations supplémentaires dans le domaine du transfert de vocabulaire translingue et contribuera à l'émancipation des langues à l'échelle mondiale.

English

The development of monolingual language models for low and mid-resource languages continues to be hindered by the difficulty in sourcing high-quality training data. In this study, we present a novel cross-lingual vocabulary transfer strategy, trans-tokenization, designed to tackle this challenge and enable more efficient language adaptation. Our approach focuses on adapting a high-resource monolingual LLM to an unseen target language by initializing the token embeddings of the target language using a weighted average of semantically similar token embeddings from the source language. For this, we leverage a translation resource covering both the source and target languages. We validate our method with the Tweeties, a series of trans-tokenized LLMs, and demonstrate their competitive performance on various downstream tasks across a small but diverse set of languages. Additionally, we introduce Hydra LLMs, models with multiple swappable language modeling heads and embedding tables, which further extend the capabilities of our trans-tokenization strategy. By designing a Hydra LLM based on the multilingual model TowerInstruct, we developed a state-of-the-art machine translation model for Tatar, in a zero-shot manner, completely bypassing the need for high-quality parallel data. This breakthrough is particularly significant for low-resource languages like Tatar, where high-quality parallel data is hard to come by. By lowering the data and time requirements for training high-quality models, our trans-tokenization strategy allows for the development of LLMs for a wider range of languages, especially those with limited resources. We hope that our work will inspire further research and collaboration in the field of cross-lingual vocabulary transfer and contribute to the empowerment of languages on a global scale.

Trans-tokenisation et transferts de vocabulaire multilingues : adaptation linguistique des LLM pour le TALN en contexte de ressources limitées

Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP

papers.abstract

Support