ChatPaper.aiChatPaper

LexC-Gen: Generierung von Daten für extrem ressourcenarme Sprachen mit großen Sprachmodellen und zweisprachigen Lexika

LexC-Gen: Generating Data for Extremely Low-Resource Languages with Large Language Models and Bilingual Lexicons

February 21, 2024
Autoren: Zheng-Xin Yong, Cristina Menghini, Stephen H. Bach
cs.AI

Zusammenfassung

Die Datenknappheit in ressourcenarmen Sprachen kann durch wortwörtliche Übersetzungen aus annotierten Aufgaben-Daten in ressourcenreichen Sprachen mithilfe von zweisprachigen Lexika angegangen werden. Allerdings weisen zweisprachige Lexika oft nur eine begrenzte lexikalische Übereinstimmung mit den Aufgaben-Daten auf, was zu einer schlechten Übersetzungsabdeckung und Lexikonnutzung führt. Wir schlagen die lexikon-konditionierte Datengenerierung (LexC-Gen) vor, eine Methode, die Klassifikationsaufgaben-Daten in ressourcenarmen Sprachen in großem Maßstab erzeugt. Konkret verwendet LexC-Gen zunächst Wörter aus ressourcenreichen Sprachen in zweisprachigen Lexika, um lexikon-kompatible Aufgaben-Daten zu generieren, und übersetzt diese dann mithilfe von zweisprachigen Lexika via Wortübersetzung in ressourcenarme Sprachen. Über 17 extrem ressourcenarme Sprachen hinweg ist die von LexC-Gen generierte Datenqualität vergleichbar mit von Experten übersetzten Gold-Daten und erzielt im Durchschnitt eine Verbesserung von 5,6 bzw. 8,9 Punkten gegenüber bestehenden lexikonbasierten Wortübersetzungsmethoden bei Sentiment-Analyse- und Themenklassifikationsaufgaben. Wir zeigen, dass die Konditionierung auf zweisprachige Lexika der Schlüsselbestandteil von LexC-Gen ist. LexC-Gen ist auch praktisch – es benötigt nur eine einzige GPU, um Daten in großem Maßstab zu generieren. Es funktioniert gut mit frei zugänglichen LLMs (Large Language Models), und seine Kosten betragen ein Fünftel der Kosten der GPT4-basierten mehrsprachigen Datengenerierung.
English
Data scarcity in low-resource languages can be addressed with word-to-word translations from labeled task data in high-resource languages using bilingual lexicons. However, bilingual lexicons often have limited lexical overlap with task data, which results in poor translation coverage and lexicon utilization. We propose lexicon-conditioned data generation (LexC-Gen), a method that generates low-resource-language classification task data at scale. Specifically, LexC-Gen first uses high-resource-language words from bilingual lexicons to generate lexicon-compatible task data, and then it translates them into low-resource languages with bilingual lexicons via word translation. Across 17 extremely low-resource languages, LexC-Gen generated data is competitive with expert-translated gold data, and yields on average 5.6 and 8.9 points improvement over existing lexicon-based word translation methods on sentiment analysis and topic classification tasks respectively. We show that conditioning on bilingual lexicons is the key component of LexC-Gen. LexC-Gen is also practical -- it only needs a single GPU to generate data at scale. It works well with open-access LLMs, and its cost is one-fifth of the cost of GPT4-based multilingual data generation.
PDF102December 15, 2024