ChatPaper.aiChatPaper

LexC-Gen: 대규모 언어 모델과 이중 언어 사전을 활용한 극소수 언어 데이터 생성

LexC-Gen: Generating Data for Extremely Low-Resource Languages with Large Language Models and Bilingual Lexicons

February 21, 2024
저자: Zheng-Xin Yong, Cristina Menghini, Stephen H. Bach
cs.AI

초록

저자원 언어에서의 데이터 부족 문제는 고자원 언어의 레이블된 작업 데이터를 이중 언어 사전을 사용해 단어 대 단어로 번역함으로써 해결할 수 있습니다. 그러나 이중 언어 사전은 종종 작업 데이터와 제한된 어휘 중복을 보여, 이는 번역 범위와 사전 활용도가 낮은 결과를 초래합니다. 우리는 저자원 언어 분류 작업 데이터를 대규모로 생성하는 방법인 사전 조건부 데이터 생성(LexC-Gen)을 제안합니다. 구체적으로, LexC-Gen은 먼저 이중 언어 사전의 고자원 언어 단어를 사용해 사전과 호환 가능한 작업 데이터를 생성한 후, 이를 단어 번역을 통해 저자원 언어로 번역합니다. 17개의 극도로 저자원 언어에서 LexC-Gen으로 생성된 데이터는 전문가가 번역한 골드 데이터와 경쟁력을 보였으며, 감정 분석 및 주제 분류 작업에서 기존의 사전 기반 단어 번역 방법보다 각각 평균 5.6점과 8.9점의 개선을 달성했습니다. 우리는 이중 언어 사전에 조건을 부여하는 것이 LexC-Gen의 핵심 요소임을 보여줍니다. LexC-Gen은 실용적이기도 한데, 대규모 데이터 생성을 위해 단일 GPU만 필요하며, 오픈 액세스 대형 언어 모델(LLM)과 잘 작동하고, GPT4 기반 다국어 데이터 생성 비용의 5분의 1 수준입니다.
English
Data scarcity in low-resource languages can be addressed with word-to-word translations from labeled task data in high-resource languages using bilingual lexicons. However, bilingual lexicons often have limited lexical overlap with task data, which results in poor translation coverage and lexicon utilization. We propose lexicon-conditioned data generation (LexC-Gen), a method that generates low-resource-language classification task data at scale. Specifically, LexC-Gen first uses high-resource-language words from bilingual lexicons to generate lexicon-compatible task data, and then it translates them into low-resource languages with bilingual lexicons via word translation. Across 17 extremely low-resource languages, LexC-Gen generated data is competitive with expert-translated gold data, and yields on average 5.6 and 8.9 points improvement over existing lexicon-based word translation methods on sentiment analysis and topic classification tasks respectively. We show that conditioning on bilingual lexicons is the key component of LexC-Gen. LexC-Gen is also practical -- it only needs a single GPU to generate data at scale. It works well with open-access LLMs, and its cost is one-fifth of the cost of GPT4-based multilingual data generation.
PDF102December 15, 2024