LexC-Gen: Het genereren van gegevens voor extreem laag-resourcetalen met grote taalmodelen en tweetalige lexicons
LexC-Gen: Generating Data for Extremely Low-Resource Languages with Large Language Models and Bilingual Lexicons
February 21, 2024
Auteurs: Zheng-Xin Yong, Cristina Menghini, Stephen H. Bach
cs.AI
Samenvatting
Dataschaarste in talen met beperkte bronnen kan worden aangepakt met woord-voor-woord vertalingen van gelabelde taakgegevens uit talen met veel bronnen, waarbij tweetalige woordenlijsten worden gebruikt. Echter, tweetalige woordenlijsten hebben vaak een beperkte lexicale overlap met taakgegevens, wat resulteert in slechte vertaaldekking en benutting van de woordenlijst. Wij stellen lexicon-geconditioneerde datageneratie (LexC-Gen) voor, een methode die classificatietaakgegevens in talen met beperkte bronnen op grote schaal genereert. Specifiek gebruikt LexC-Gen eerst woorden uit talen met veel bronnen uit tweetalige woordenlijsten om lexicon-compatibele taakgegevens te genereren, en vertaalt deze vervolgens naar talen met beperkte bronnen met behulp van tweetalige woordenlijsten via woordvertaling. Over 17 extreem laag-resource talen is de door LexC-Gen gegenereerde data vergelijkbaar met door experts vertaalde gouden data, en levert gemiddeld 5,6 en 8,9 punten verbetering op ten opzichte van bestaande lexicon-gebaseerde woordvertaalmethoden voor sentimentanalyse en onderwerpsclassificatietaken respectievelijk. We tonen aan dat conditionering op tweetalige woordenlijsten het sleutelelement van LexC-Gen is. LexC-Gen is ook praktisch – het heeft slechts één GPU nodig om data op grote schaal te genereren. Het werkt goed met open-access LLM's, en de kosten ervan zijn een vijfde van de kosten van GPT4-gebaseerde meertalige datageneratie.
English
Data scarcity in low-resource languages can be addressed with word-to-word
translations from labeled task data in high-resource languages using bilingual
lexicons. However, bilingual lexicons often have limited lexical overlap with
task data, which results in poor translation coverage and lexicon utilization.
We propose lexicon-conditioned data generation (LexC-Gen), a method that
generates low-resource-language classification task data at scale.
Specifically, LexC-Gen first uses high-resource-language words from bilingual
lexicons to generate lexicon-compatible task data, and then it translates them
into low-resource languages with bilingual lexicons via word translation.
Across 17 extremely low-resource languages, LexC-Gen generated data is
competitive with expert-translated gold data, and yields on average 5.6 and 8.9
points improvement over existing lexicon-based word translation methods on
sentiment analysis and topic classification tasks respectively. We show that
conditioning on bilingual lexicons is the key component of LexC-Gen. LexC-Gen
is also practical -- it only needs a single GPU to generate data at scale. It
works well with open-access LLMs, and its cost is one-fifth of the cost of
GPT4-based multilingual data generation.