LexC-Gen: Генерация данных для языков с крайне ограниченными ресурсами с использованием крупных языковых моделей и двуязычных лексиконов
LexC-Gen: Generating Data for Extremely Low-Resource Languages with Large Language Models and Bilingual Lexicons
February 21, 2024
Авторы: Zheng-Xin Yong, Cristina Menghini, Stephen H. Bach
cs.AI
Аннотация
Недостаток данных в языках с ограниченными ресурсами можно решить с помощью пословного перевода размеченных данных задач из языков с богатыми ресурсами, используя двуязычные словари. Однако двуязычные словари часто имеют ограниченное лексическое совпадение с данными задач, что приводит к низкому охвату перевода и неэффективному использованию словарей. Мы предлагаем метод генерации данных, обусловленной словарями (LexC-Gen), который позволяет масштабируемо генерировать данные для задач классификации на языках с ограниченными ресурсами. В частности, LexC-Gen сначала использует слова из двуязычных словарей для создания совместимых с ними данных задач на языке с богатыми ресурсами, а затем переводит их на язык с ограниченными ресурсами с помощью пословного перевода. На 17 языках с крайне ограниченными ресурсами данные, сгенерированные с помощью LexC-Gen, конкурируют с эталонными данными, переведенными экспертами, и показывают в среднем улучшение на 5,6 и 8,9 баллов по сравнению с существующими методами пословного перевода на основе словарей в задачах анализа тональности и классификации тем соответственно. Мы показываем, что обусловленность двуязычными словарями является ключевым компонентом LexC-Gen. LexC-Gen также практичен — для масштабируемой генерации данных требуется всего один GPU. Метод хорошо работает с открытыми языковыми моделями, а его стоимость составляет одну пятую от стоимости генерации многоязычных данных на основе GPT-4.
English
Data scarcity in low-resource languages can be addressed with word-to-word
translations from labeled task data in high-resource languages using bilingual
lexicons. However, bilingual lexicons often have limited lexical overlap with
task data, which results in poor translation coverage and lexicon utilization.
We propose lexicon-conditioned data generation (LexC-Gen), a method that
generates low-resource-language classification task data at scale.
Specifically, LexC-Gen first uses high-resource-language words from bilingual
lexicons to generate lexicon-compatible task data, and then it translates them
into low-resource languages with bilingual lexicons via word translation.
Across 17 extremely low-resource languages, LexC-Gen generated data is
competitive with expert-translated gold data, and yields on average 5.6 and 8.9
points improvement over existing lexicon-based word translation methods on
sentiment analysis and topic classification tasks respectively. We show that
conditioning on bilingual lexicons is the key component of LexC-Gen. LexC-Gen
is also practical -- it only needs a single GPU to generate data at scale. It
works well with open-access LLMs, and its cost is one-fifth of the cost of
GPT4-based multilingual data generation.Summary
AI-Generated Summary