LexC-Gen: Generación de datos para lenguajes de recursos extremadamente limitados con modelos de lenguaje de gran escala y léxicos bilingües

Resumen

La escasez de datos en lenguajes de bajos recursos puede abordarse mediante traducciones palabra por palabra de datos etiquetados de tareas en lenguajes de altos recursos utilizando léxicos bilingües. Sin embargo, los léxicos bilingües suelen tener un solapamiento léxico limitado con los datos de la tarea, lo que resulta en una cobertura de traducción y utilización del léxico deficientes. Proponemos la generación de datos condicionada por léxicos (LexC-Gen), un método que genera datos de tareas de clasificación en lenguajes de bajos recursos a gran escala. Específicamente, LexC-Gen primero utiliza palabras de lenguajes de altos recursos de léxicos bilingües para generar datos de tareas compatibles con el léxico, y luego los traduce a lenguajes de bajos recursos mediante traducción palabra por palabra utilizando léxicos bilingües. En 17 lenguajes extremadamente bajos en recursos, los datos generados por LexC-Gen son competitivos con datos de referencia traducidos por expertos, y muestran una mejora promedio de 5.6 y 8.9 puntos sobre los métodos existentes de traducción basados en léxicos para tareas de análisis de sentimientos y clasificación de temas, respectivamente. Demostramos que el condicionamiento por léxicos bilingües es el componente clave de LexC-Gen. Además, LexC-Gen es práctico: solo necesita una única GPU para generar datos a gran escala. Funciona bien con modelos de lenguaje de acceso abierto, y su costo es una quinta parte del costo de la generación de datos multilingüe basada en GPT-4.

English

Data scarcity in low-resource languages can be addressed with word-to-word translations from labeled task data in high-resource languages using bilingual lexicons. However, bilingual lexicons often have limited lexical overlap with task data, which results in poor translation coverage and lexicon utilization. We propose lexicon-conditioned data generation (LexC-Gen), a method that generates low-resource-language classification task data at scale. Specifically, LexC-Gen first uses high-resource-language words from bilingual lexicons to generate lexicon-compatible task data, and then it translates them into low-resource languages with bilingual lexicons via word translation. Across 17 extremely low-resource languages, LexC-Gen generated data is competitive with expert-translated gold data, and yields on average 5.6 and 8.9 points improvement over existing lexicon-based word translation methods on sentiment analysis and topic classification tasks respectively. We show that conditioning on bilingual lexicons is the key component of LexC-Gen. LexC-Gen is also practical -- it only needs a single GPU to generate data at scale. It works well with open-access LLMs, and its cost is one-fifth of the cost of GPT4-based multilingual data generation.

LexC-Gen: Generación de datos para lenguajes de recursos extremadamente limitados con modelos de lenguaje de gran escala y léxicos bilingües

LexC-Gen: Generating Data for Extremely Low-Resource Languages with Large Language Models and Bilingual Lexicons

Resumen

Support