ChatPaper.aiChatPaper

LexC-Gen: Gerando Dados para Idiomas de Recursos Extremamente Limitados com Modelos de Linguagem de Grande Escala e Léxicos Bilíngues

LexC-Gen: Generating Data for Extremely Low-Resource Languages with Large Language Models and Bilingual Lexicons

February 21, 2024
Autores: Zheng-Xin Yong, Cristina Menghini, Stephen H. Bach
cs.AI

Resumo

A escassez de dados em idiomas de baixos recursos pode ser mitigada com traduções palavra por palavra de dados rotulados de tarefas em idiomas de altos recursos, utilizando léxicos bilíngues. No entanto, os léxicos bilíngues frequentemente possuem sobreposição lexical limitada com os dados da tarefa, o que resulta em cobertura de tradução e utilização do léxico insatisfatórias. Propomos a geração de dados condicionada por léxico (LexC-Gen), um método que gera dados de tarefas de classificação em idiomas de baixos recursos em escala. Especificamente, o LexC-Gen primeiro utiliza palavras de idiomas de altos recursos a partir de léxicos bilíngues para gerar dados de tarefas compatíveis com o léxico e, em seguida, os traduz para idiomas de baixos recursos com léxicos bilíngues por meio de tradução palavra por palavra. Em 17 idiomas extremamente de baixos recursos, os dados gerados pelo LexC-Gen são competitivos com dados de referência traduzidos por especialistas e proporcionam, em média, melhorias de 5,6 e 8,9 pontos em relação aos métodos existentes de tradução palavra por palavra baseados em léxicos para tarefas de análise de sentimentos e classificação de tópicos, respectivamente. Mostramos que a condicionamento por léxicos bilíngues é o componente chave do LexC-Gen. O LexC-Gen também é prático — ele precisa apenas de uma única GPU para gerar dados em escala. Ele funciona bem com LLMs de acesso aberto, e seu custo é um quinto do custo da geração de dados multilíngues baseada no GPT-4.
English
Data scarcity in low-resource languages can be addressed with word-to-word translations from labeled task data in high-resource languages using bilingual lexicons. However, bilingual lexicons often have limited lexical overlap with task data, which results in poor translation coverage and lexicon utilization. We propose lexicon-conditioned data generation (LexC-Gen), a method that generates low-resource-language classification task data at scale. Specifically, LexC-Gen first uses high-resource-language words from bilingual lexicons to generate lexicon-compatible task data, and then it translates them into low-resource languages with bilingual lexicons via word translation. Across 17 extremely low-resource languages, LexC-Gen generated data is competitive with expert-translated gold data, and yields on average 5.6 and 8.9 points improvement over existing lexicon-based word translation methods on sentiment analysis and topic classification tasks respectively. We show that conditioning on bilingual lexicons is the key component of LexC-Gen. LexC-Gen is also practical -- it only needs a single GPU to generate data at scale. It works well with open-access LLMs, and its cost is one-fifth of the cost of GPT4-based multilingual data generation.
PDF122December 15, 2024