Tokenização Trans-Idioma e Transferências de Vocabulário Cruzado: Adaptação de Linguagem de Modelos de Linguagem com Poucos Recursos para PNL

Resumo

O desenvolvimento de modelos de linguagem monolíngues para línguas de baixo e médio recurso continua a ser dificultado pela dificuldade em obter dados de treinamento de alta qualidade. Neste estudo, apresentamos uma nova estratégia de transferência de vocabulário cruzado, trans-tokenização, projetada para enfrentar esse desafio e permitir uma adaptação de linguagem mais eficiente. Nossa abordagem concentra-se em adaptar um LLM monolíngue de alto recurso para uma linguagem de destino não vista, inicializando os embeddings de token da linguagem de destino usando uma média ponderada de embeddings de token semanticamente similares da linguagem de origem. Para isso, aproveitamos um recurso de tradução que abrange tanto a linguagem de origem quanto a de destino. Validamos nosso método com os Tweeties, uma série de LLMs trans-tokenizados, e demonstramos seu desempenho competitivo em várias tarefas secundárias em um conjunto pequeno, mas diversificado, de idiomas. Além disso, introduzimos os LLMs Hydra, modelos com múltiplas cabeças de modelagem de linguagem intercambiáveis e tabelas de embeddings, que ampliam ainda mais as capacidades de nossa estratégia de trans-tokenização. Ao projetar um LLM Hydra com base no modelo multilíngue TowerInstruct, desenvolvemos um modelo de tradução automática de última geração para o tártaro, de forma zero-shot, contornando completamente a necessidade de dados paralelos de alta qualidade. Essa descoberta é particularmente significativa para línguas de baixo recurso como o tártaro, onde é difícil encontrar dados paralelos de alta qualidade. Ao reduzir os requisitos de dados e tempo para treinar modelos de alta qualidade, nossa estratégia de trans-tokenização permite o desenvolvimento de LLMs para uma gama mais ampla de idiomas, especialmente aqueles com recursos limitados. Esperamos que nosso trabalho inspire mais pesquisas e colaborações no campo da transferência de vocabulário cruzado e contribua para o fortalecimento de idiomas em escala global.

English

The development of monolingual language models for low and mid-resource languages continues to be hindered by the difficulty in sourcing high-quality training data. In this study, we present a novel cross-lingual vocabulary transfer strategy, trans-tokenization, designed to tackle this challenge and enable more efficient language adaptation. Our approach focuses on adapting a high-resource monolingual LLM to an unseen target language by initializing the token embeddings of the target language using a weighted average of semantically similar token embeddings from the source language. For this, we leverage a translation resource covering both the source and target languages. We validate our method with the Tweeties, a series of trans-tokenized LLMs, and demonstrate their competitive performance on various downstream tasks across a small but diverse set of languages. Additionally, we introduce Hydra LLMs, models with multiple swappable language modeling heads and embedding tables, which further extend the capabilities of our trans-tokenization strategy. By designing a Hydra LLM based on the multilingual model TowerInstruct, we developed a state-of-the-art machine translation model for Tatar, in a zero-shot manner, completely bypassing the need for high-quality parallel data. This breakthrough is particularly significant for low-resource languages like Tatar, where high-quality parallel data is hard to come by. By lowering the data and time requirements for training high-quality models, our trans-tokenization strategy allows for the development of LLMs for a wider range of languages, especially those with limited resources. We hope that our work will inspire further research and collaboration in the field of cross-lingual vocabulary transfer and contribute to the empowerment of languages on a global scale.

Tokenização Trans-Idioma e Transferências de Vocabulário Cruzado: Adaptação de Linguagem de Modelos de Linguagem com Poucos Recursos para PNL

Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP

Resumo

Summary

Support

Support