UnifiedCrawl: Common Crawl Agregado para la Adaptación Asequible de LLMs en Lenguas de Recursos Limitados
UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages
November 21, 2024
Autores: Bethel Melesse Tessema, Akhil Kedia, Tae-Sun Chung
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) tienen un rendimiento inferior en los idiomas con recursos limitados debido a la cantidad limitada de datos de entrenamiento. Presentamos un método para recopilar de manera eficiente datos de texto para idiomas con recursos limitados a partir de todo el corpus de Common Crawl. Nuestro enfoque, UnifiedCrawl, filtra y extrae Common Crawl utilizando recursos computacionales mínimos, lo que resulta en conjuntos de datos monolingües mucho más grandes que las fuentes disponibles anteriormente. Demostramos que aprovechar estos datos para ajustar finamente los LLMs multilingües a través de métodos de adaptador eficientes (QLoRA) aumenta significativamente el rendimiento en el idioma con recursos limitados, al tiempo que minimiza el uso de VRAM. Nuestros experimentos muestran grandes mejoras en la perplejidad del modelado del lenguaje y un aumento en los puntajes de generación con pocos ejemplos. Nuestro trabajo y el código fuente publicado ofrecen un enfoque asequible para mejorar los LLMs para idiomas con recursos limitados utilizando hardware de consumo. Nuestro código fuente está disponible aquí en https://github.com/bethelmelesse/unifiedcrawl.
English
Large language models (LLMs) under-perform on low-resource languages due to
limited training data. We present a method to efficiently collect text data for
low-resource languages from the entire Common Crawl corpus. Our approach,
UnifiedCrawl, filters and extracts common crawl using minimal compute
resources, yielding mono-lingual datasets much larger than previously available
sources. We demonstrate that leveraging this data to fine-tuning multilingual
LLMs via efficient adapter methods (QLoRA) significantly boosts performance on
the low-resource language, while minimizing VRAM usage. Our experiments show
large improvements in language modeling perplexity and an increase in few-shot
prompting scores. Our work and released source code provide an affordable
approach to improve LLMs for low-resource languages using consumer hardware.
Our source code is available here at
https://github.com/bethelmelesse/unifiedcrawl.Summary
AI-Generated Summary