ChatPaper.aiChatPaper

Трансформация токенов и перевод словаря на разные языки: адаптация языковых моделей с ограниченными ресурсами для обработки естественного языка.

Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP

August 8, 2024
Авторы: François Remy, Pieter Delobelle, Hayastan Avetisyan, Alfiya Khabibullina, Miryam de Lhoneux, Thomas Demeester
cs.AI

Аннотация

Разработка монолингвистических языковых моделей для языков с низким и средним уровнем ресурсов продолжает затрудняться из-за сложностей в поиске высококачественных обучающих данных. В данном исследовании мы представляем новую стратегию переноса словаря между языками, называемую "транс-токенизация", разработанную для преодоления этого вызова и обеспечения более эффективной адаптации языка. Наш подход сосредотачивается на адаптации монолингвистической модели LLM с высоким уровнем ресурсов к невидимому целевому языку путем инициализации встраиваний токенов целевого языка с использованием взвешенного среднего значений семантически похожих встраиваний токенов из исходного языка. Для этого мы используем ресурс перевода, охватывающий как исходный, так и целевой языки. Мы проверяем наш метод с помощью Tweeties, серии транс-токенизированных LLM, и демонстрируем их конкурентоспособную производительность на различных задачах на нескольких языках, хоть и небольших, но разнообразных. Кроме того, мы представляем Hydra LLM, модели с несколькими заменяемыми головами языкового моделирования и таблицами встраиваний, которые дополнительно расширяют возможности нашей стратегии транс-токенизации. Создав Hydra LLM на основе мультиязычной модели TowerInstruct, мы разработали передовую модель машинного перевода для татарского языка в нулевом режиме, полностью обходя необходимость в высококачественных параллельных данных. Этот прорыв особенно значим для языков с низким уровнем ресурсов, таких как татарский, где высококачественные параллельные данные трудно найти. Снижая требования к данным и времени для обучения моделей высокого качества, наша стратегия транс-токенизации позволяет разрабатывать LLM для более широкого спектра языков, особенно тех, у которых ограниченные ресурсы. Мы надеемся, что наша работа вдохновит дальнейшие исследования и сотрудничество в области переноса словаря между языками и способствует укреплению языков на глобальном уровне.
English
The development of monolingual language models for low and mid-resource languages continues to be hindered by the difficulty in sourcing high-quality training data. In this study, we present a novel cross-lingual vocabulary transfer strategy, trans-tokenization, designed to tackle this challenge and enable more efficient language adaptation. Our approach focuses on adapting a high-resource monolingual LLM to an unseen target language by initializing the token embeddings of the target language using a weighted average of semantically similar token embeddings from the source language. For this, we leverage a translation resource covering both the source and target languages. We validate our method with the Tweeties, a series of trans-tokenized LLMs, and demonstrate their competitive performance on various downstream tasks across a small but diverse set of languages. Additionally, we introduce Hydra LLMs, models with multiple swappable language modeling heads and embedding tables, which further extend the capabilities of our trans-tokenization strategy. By designing a Hydra LLM based on the multilingual model TowerInstruct, we developed a state-of-the-art machine translation model for Tatar, in a zero-shot manner, completely bypassing the need for high-quality parallel data. This breakthrough is particularly significant for low-resource languages like Tatar, where high-quality parallel data is hard to come by. By lowering the data and time requirements for training high-quality models, our trans-tokenization strategy allows for the development of LLMs for a wider range of languages, especially those with limited resources. We hope that our work will inspire further research and collaboration in the field of cross-lingual vocabulary transfer and contribute to the empowerment of languages on a global scale.

Summary

AI-Generated Summary

PDF212November 28, 2024