ChatPaper.aiChatPaper

Tokenización Trans-Idioma y Transferencias de Vocabulario Cruzado: Adaptación de LLMs para Procesamiento de Lenguaje Natural en Recursos Limitados

Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP

August 8, 2024
Autores: François Remy, Pieter Delobelle, Hayastan Avetisyan, Alfiya Khabibullina, Miryam de Lhoneux, Thomas Demeester
cs.AI

Resumen

El desarrollo de modelos de lenguaje monolingües para idiomas con recursos bajos y medios sigue siendo obstaculizado por la dificultad para obtener datos de entrenamiento de alta calidad. En este estudio, presentamos una novedosa estrategia de transferencia de vocabulario cruzado, denominada trans-tokenización, diseñada para abordar este desafío y permitir una adaptación del lenguaje más eficiente. Nuestro enfoque se centra en adaptar un LLM monolingüe de alto recurso a un idioma de destino no visto inicializando los embeddings de tokens del idioma de destino utilizando un promedio ponderado de embeddings de tokens semánticamente similares del idioma fuente. Para esto, aprovechamos un recurso de traducción que cubre tanto el idioma fuente como el de destino. Validamos nuestro método con los Tweeties, una serie de LLMs trans-tokenizados, y demostramos su rendimiento competitivo en diversas tareas secundarias en un conjunto pequeño pero diverso de idiomas. Además, presentamos los LLMs Hydra, modelos con múltiples cabezas de modelado de lenguaje intercambiables y tablas de embeddings, que amplían aún más las capacidades de nuestra estrategia de trans-tokenización. Al diseñar un LLM Hydra basado en el modelo multilingüe TowerInstruct, desarrollamos un modelo de traducción automática de vanguardia para el tártaro, de manera de cero disparos, evitando por completo la necesidad de datos paralelos de alta calidad. Este avance es particularmente significativo para idiomas con recursos limitados como el tártaro, donde es difícil encontrar datos paralelos de alta calidad. Al reducir los requisitos de datos y tiempo para entrenar modelos de alta calidad, nuestra estrategia de trans-tokenización permite el desarrollo de LLMs para una gama más amplia de idiomas, especialmente aquellos con recursos limitados. Esperamos que nuestro trabajo inspire más investigaciones y colaboraciones en el campo de la transferencia de vocabulario cruzado y contribuya al empoderamiento de los idiomas a escala global.
English
The development of monolingual language models for low and mid-resource languages continues to be hindered by the difficulty in sourcing high-quality training data. In this study, we present a novel cross-lingual vocabulary transfer strategy, trans-tokenization, designed to tackle this challenge and enable more efficient language adaptation. Our approach focuses on adapting a high-resource monolingual LLM to an unseen target language by initializing the token embeddings of the target language using a weighted average of semantically similar token embeddings from the source language. For this, we leverage a translation resource covering both the source and target languages. We validate our method with the Tweeties, a series of trans-tokenized LLMs, and demonstrate their competitive performance on various downstream tasks across a small but diverse set of languages. Additionally, we introduce Hydra LLMs, models with multiple swappable language modeling heads and embedding tables, which further extend the capabilities of our trans-tokenization strategy. By designing a Hydra LLM based on the multilingual model TowerInstruct, we developed a state-of-the-art machine translation model for Tatar, in a zero-shot manner, completely bypassing the need for high-quality parallel data. This breakthrough is particularly significant for low-resource languages like Tatar, where high-quality parallel data is hard to come by. By lowering the data and time requirements for training high-quality models, our trans-tokenization strategy allows for the development of LLMs for a wider range of languages, especially those with limited resources. We hope that our work will inspire further research and collaboration in the field of cross-lingual vocabulary transfer and contribute to the empowerment of languages on a global scale.

Summary

AI-Generated Summary

PDF212November 28, 2024