LexC-Gen : Génération de données pour les langues extrêmement peu dotées à l'aide de modèles de langage de grande taille et de lexiques bilingues
LexC-Gen: Generating Data for Extremely Low-Resource Languages with Large Language Models and Bilingual Lexicons
February 21, 2024
Auteurs: Zheng-Xin Yong, Cristina Menghini, Stephen H. Bach
cs.AI
Résumé
La rareté des données dans les langues à ressources limitées peut être atténuée par des traductions mot à mot à partir de données annotées de tâches dans des langues à ressources abondantes, en utilisant des lexiques bilingues. Cependant, les lexiques bilingues présentent souvent un chevauchement lexical limité avec les données de tâches, ce qui entraîne une couverture de traduction et une utilisation du lexique médiocres. Nous proposons la génération de données conditionnée par lexique (LexC-Gen), une méthode qui génère à grande échelle des données de tâches de classification pour les langues à ressources limitées. Plus précisément, LexC-Gen utilise d'abord des mots de langues à ressources abondantes issus de lexiques bilingues pour générer des données de tâches compatibles avec le lexique, puis les traduit dans des langues à ressources limitées via une traduction mot à mot avec des lexiques bilingues. Sur 17 langues extrêmement pauvres en ressources, les données générées par LexC-Gen rivalisent avec des données de référence traduites par des experts, et montrent en moyenne une amélioration de 5,6 et 8,9 points par rapport aux méthodes existantes de traduction mot à mot basées sur des lexiques, respectivement pour les tâches d'analyse de sentiments et de classification thématique. Nous démontrons que le conditionnement sur des lexiques bilingues est l'élément clé de LexC-Gen. LexC-Gen est également pratique : elle ne nécessite qu'un seul GPU pour générer des données à grande échelle. Elle fonctionne bien avec des modèles de langage à accès ouvert, et son coût est un cinquième de celui de la génération de données multilingues basée sur GPT4.
English
Data scarcity in low-resource languages can be addressed with word-to-word
translations from labeled task data in high-resource languages using bilingual
lexicons. However, bilingual lexicons often have limited lexical overlap with
task data, which results in poor translation coverage and lexicon utilization.
We propose lexicon-conditioned data generation (LexC-Gen), a method that
generates low-resource-language classification task data at scale.
Specifically, LexC-Gen first uses high-resource-language words from bilingual
lexicons to generate lexicon-compatible task data, and then it translates them
into low-resource languages with bilingual lexicons via word translation.
Across 17 extremely low-resource languages, LexC-Gen generated data is
competitive with expert-translated gold data, and yields on average 5.6 and 8.9
points improvement over existing lexicon-based word translation methods on
sentiment analysis and topic classification tasks respectively. We show that
conditioning on bilingual lexicons is the key component of LexC-Gen. LexC-Gen
is also practical -- it only needs a single GPU to generate data at scale. It
works well with open-access LLMs, and its cost is one-fifth of the cost of
GPT4-based multilingual data generation.