LexC-Gen: Generación de datos para lenguajes de recursos extremadamente limitados con modelos de lenguaje de gran escala y léxicos bilingües
LexC-Gen: Generating Data for Extremely Low-Resource Languages with Large Language Models and Bilingual Lexicons
February 21, 2024
Autores: Zheng-Xin Yong, Cristina Menghini, Stephen H. Bach
cs.AI
Resumen
La escasez de datos en lenguajes de bajos recursos puede abordarse mediante traducciones palabra por palabra de datos etiquetados de tareas en lenguajes de altos recursos utilizando léxicos bilingües. Sin embargo, los léxicos bilingües suelen tener un solapamiento léxico limitado con los datos de la tarea, lo que resulta en una cobertura de traducción y utilización del léxico deficientes. Proponemos la generación de datos condicionada por léxicos (LexC-Gen), un método que genera datos de tareas de clasificación en lenguajes de bajos recursos a gran escala. Específicamente, LexC-Gen primero utiliza palabras de lenguajes de altos recursos de léxicos bilingües para generar datos de tareas compatibles con el léxico, y luego los traduce a lenguajes de bajos recursos mediante traducción palabra por palabra utilizando léxicos bilingües. En 17 lenguajes extremadamente bajos en recursos, los datos generados por LexC-Gen son competitivos con datos de referencia traducidos por expertos, y muestran una mejora promedio de 5.6 y 8.9 puntos sobre los métodos existentes de traducción basados en léxicos para tareas de análisis de sentimientos y clasificación de temas, respectivamente. Demostramos que el condicionamiento por léxicos bilingües es el componente clave de LexC-Gen. Además, LexC-Gen es práctico: solo necesita una única GPU para generar datos a gran escala. Funciona bien con modelos de lenguaje de acceso abierto, y su costo es una quinta parte del costo de la generación de datos multilingüe basada en GPT-4.
English
Data scarcity in low-resource languages can be addressed with word-to-word
translations from labeled task data in high-resource languages using bilingual
lexicons. However, bilingual lexicons often have limited lexical overlap with
task data, which results in poor translation coverage and lexicon utilization.
We propose lexicon-conditioned data generation (LexC-Gen), a method that
generates low-resource-language classification task data at scale.
Specifically, LexC-Gen first uses high-resource-language words from bilingual
lexicons to generate lexicon-compatible task data, and then it translates them
into low-resource languages with bilingual lexicons via word translation.
Across 17 extremely low-resource languages, LexC-Gen generated data is
competitive with expert-translated gold data, and yields on average 5.6 and 8.9
points improvement over existing lexicon-based word translation methods on
sentiment analysis and topic classification tasks respectively. We show that
conditioning on bilingual lexicons is the key component of LexC-Gen. LexC-Gen
is also practical -- it only needs a single GPU to generate data at scale. It
works well with open-access LLMs, and its cost is one-fifth of the cost of
GPT4-based multilingual data generation.