Trans-Tokenizzazione e Trasferimenti Lessicali Translinguistici: Adattamento Linguistico dei Modelli Linguistici di Grandi Dimensioni per l'Elaborazione del Linguaggio Naturale in Contesti a Risorse Limit
Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP
August 8, 2024
Autori: François Remy, Pieter Delobelle, Hayastan Avetisyan, Alfiya Khabibullina, Miryam de Lhoneux, Thomas Demeester
cs.AI
Abstract
Lo sviluppo di modelli linguistici monolingue per lingue a risorse limitate e medie continua a essere ostacolato dalla difficoltà di reperire dati di addestramento di alta qualità. In questo studio, presentiamo una nuova strategia di trasferimento lessicale cross-linguale, la trans-tokenizzazione, progettata per affrontare questa sfida e consentire un adattamento linguistico più efficiente. Il nostro approccio si concentra sull'adattamento di un modello linguistico monolingue ad alta risorsa a una lingua target non vista, inizializzando gli embedding dei token della lingua target utilizzando una media ponderata degli embedding di token semanticamente simili dalla lingua sorgente. A tal fine, sfruttiamo una risorsa di traduzione che copre sia la lingua sorgente che quella target. Validiamo il nostro metodo con i Tweeties, una serie di modelli linguistici trans-tokenizzati, e dimostriamo le loro prestazioni competitive su vari task downstream in un insieme piccolo ma diversificato di lingue. Inoltre, introduciamo i modelli Hydra LLM, dotati di più teste di modellazione linguistica e tabelle di embedding intercambiabili, che estendono ulteriormente le capacità della nostra strategia di trans-tokenizzazione. Progettando un Hydra LLM basato sul modello multilingue TowerInstruct, abbiamo sviluppato un modello di traduzione automatica all'avanguardia per il tataro, in modalità zero-shot, bypassando completamente la necessità di dati paralleli di alta qualità. Questa svolta è particolarmente significativa per lingue a risorse limitate come il tataro, dove dati paralleli di alta qualità sono difficili da reperire. Riducendo i requisiti di dati e tempo per l'addestramento di modelli di alta qualità, la nostra strategia di trans-tokenizzazione consente lo sviluppo di modelli linguistici per una gamma più ampia di lingue, specialmente quelle con risorse limitate. Speriamo che il nostro lavoro possa ispirare ulteriori ricerche e collaborazioni nel campo del trasferimento lessicale cross-linguale e contribuire all'empowerment delle lingue su scala globale.
English
The development of monolingual language models for low and mid-resource
languages continues to be hindered by the difficulty in sourcing high-quality
training data. In this study, we present a novel cross-lingual vocabulary
transfer strategy, trans-tokenization, designed to tackle this challenge and
enable more efficient language adaptation. Our approach focuses on adapting a
high-resource monolingual LLM to an unseen target language by initializing the
token embeddings of the target language using a weighted average of
semantically similar token embeddings from the source language. For this, we
leverage a translation resource covering both the source and target languages.
We validate our method with the Tweeties, a series of trans-tokenized LLMs, and
demonstrate their competitive performance on various downstream tasks across a
small but diverse set of languages. Additionally, we introduce Hydra LLMs,
models with multiple swappable language modeling heads and embedding tables,
which further extend the capabilities of our trans-tokenization strategy. By
designing a Hydra LLM based on the multilingual model TowerInstruct, we
developed a state-of-the-art machine translation model for Tatar, in a
zero-shot manner, completely bypassing the need for high-quality parallel data.
This breakthrough is particularly significant for low-resource languages like
Tatar, where high-quality parallel data is hard to come by. By lowering the
data and time requirements for training high-quality models, our
trans-tokenization strategy allows for the development of LLMs for a wider
range of languages, especially those with limited resources. We hope that our
work will inspire further research and collaboration in the field of
cross-lingual vocabulary transfer and contribute to the empowerment of
languages on a global scale.