Tokenização Trans-Idioma e Transferências de Vocabulário Cruzado: Adaptação de Linguagem de Modelos de Linguagem com Poucos Recursos para PNL
Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP
August 8, 2024
Autores: François Remy, Pieter Delobelle, Hayastan Avetisyan, Alfiya Khabibullina, Miryam de Lhoneux, Thomas Demeester
cs.AI
Resumo
O desenvolvimento de modelos de linguagem monolíngues para línguas de baixo e médio recurso continua a ser dificultado pela dificuldade em obter dados de treinamento de alta qualidade. Neste estudo, apresentamos uma nova estratégia de transferência de vocabulário cruzado, trans-tokenização, projetada para enfrentar esse desafio e permitir uma adaptação de linguagem mais eficiente. Nossa abordagem concentra-se em adaptar um LLM monolíngue de alto recurso para uma linguagem de destino não vista, inicializando os embeddings de token da linguagem de destino usando uma média ponderada de embeddings de token semanticamente similares da linguagem de origem. Para isso, aproveitamos um recurso de tradução que abrange tanto a linguagem de origem quanto a de destino. Validamos nosso método com os Tweeties, uma série de LLMs trans-tokenizados, e demonstramos seu desempenho competitivo em várias tarefas secundárias em um conjunto pequeno, mas diversificado, de idiomas. Além disso, introduzimos os LLMs Hydra, modelos com múltiplas cabeças de modelagem de linguagem intercambiáveis e tabelas de embeddings, que ampliam ainda mais as capacidades de nossa estratégia de trans-tokenização. Ao projetar um LLM Hydra com base no modelo multilíngue TowerInstruct, desenvolvemos um modelo de tradução automática de última geração para o tártaro, de forma zero-shot, contornando completamente a necessidade de dados paralelos de alta qualidade. Essa descoberta é particularmente significativa para línguas de baixo recurso como o tártaro, onde é difícil encontrar dados paralelos de alta qualidade. Ao reduzir os requisitos de dados e tempo para treinar modelos de alta qualidade, nossa estratégia de trans-tokenização permite o desenvolvimento de LLMs para uma gama mais ampla de idiomas, especialmente aqueles com recursos limitados. Esperamos que nosso trabalho inspire mais pesquisas e colaborações no campo da transferência de vocabulário cruzado e contribua para o fortalecimento de idiomas em escala global.
English
The development of monolingual language models for low and mid-resource
languages continues to be hindered by the difficulty in sourcing high-quality
training data. In this study, we present a novel cross-lingual vocabulary
transfer strategy, trans-tokenization, designed to tackle this challenge and
enable more efficient language adaptation. Our approach focuses on adapting a
high-resource monolingual LLM to an unseen target language by initializing the
token embeddings of the target language using a weighted average of
semantically similar token embeddings from the source language. For this, we
leverage a translation resource covering both the source and target languages.
We validate our method with the Tweeties, a series of trans-tokenized LLMs, and
demonstrate their competitive performance on various downstream tasks across a
small but diverse set of languages. Additionally, we introduce Hydra LLMs,
models with multiple swappable language modeling heads and embedding tables,
which further extend the capabilities of our trans-tokenization strategy. By
designing a Hydra LLM based on the multilingual model TowerInstruct, we
developed a state-of-the-art machine translation model for Tatar, in a
zero-shot manner, completely bypassing the need for high-quality parallel data.
This breakthrough is particularly significant for low-resource languages like
Tatar, where high-quality parallel data is hard to come by. By lowering the
data and time requirements for training high-quality models, our
trans-tokenization strategy allows for the development of LLMs for a wider
range of languages, especially those with limited resources. We hope that our
work will inspire further research and collaboration in the field of
cross-lingual vocabulary transfer and contribute to the empowerment of
languages on a global scale.Summary
AI-Generated Summary