UnifiedCrawl: Common Crawl Agregado para la Adaptación Asequible de LLMs en Lenguas de Recursos Limitados

Resumen

Los modelos de lenguaje grandes (LLMs) tienen un rendimiento inferior en los idiomas con recursos limitados debido a la cantidad limitada de datos de entrenamiento. Presentamos un método para recopilar de manera eficiente datos de texto para idiomas con recursos limitados a partir de todo el corpus de Common Crawl. Nuestro enfoque, UnifiedCrawl, filtra y extrae Common Crawl utilizando recursos computacionales mínimos, lo que resulta en conjuntos de datos monolingües mucho más grandes que las fuentes disponibles anteriormente. Demostramos que aprovechar estos datos para ajustar finamente los LLMs multilingües a través de métodos de adaptador eficientes (QLoRA) aumenta significativamente el rendimiento en el idioma con recursos limitados, al tiempo que minimiza el uso de VRAM. Nuestros experimentos muestran grandes mejoras en la perplejidad del modelado del lenguaje y un aumento en los puntajes de generación con pocos ejemplos. Nuestro trabajo y el código fuente publicado ofrecen un enfoque asequible para mejorar los LLMs para idiomas con recursos limitados utilizando hardware de consumo. Nuestro código fuente está disponible aquí en https://github.com/bethelmelesse/unifiedcrawl.

English

Large language models (LLMs) under-perform on low-resource languages due to limited training data. We present a method to efficiently collect text data for low-resource languages from the entire Common Crawl corpus. Our approach, UnifiedCrawl, filters and extracts common crawl using minimal compute resources, yielding mono-lingual datasets much larger than previously available sources. We demonstrate that leveraging this data to fine-tuning multilingual LLMs via efficient adapter methods (QLoRA) significantly boosts performance on the low-resource language, while minimizing VRAM usage. Our experiments show large improvements in language modeling perplexity and an increase in few-shot prompting scores. Our work and released source code provide an affordable approach to improve LLMs for low-resource languages using consumer hardware. Our source code is available here at https://github.com/bethelmelesse/unifiedcrawl.

UnifiedCrawl: Common Crawl Agregado para la Adaptación Asequible de LLMs en Lenguas de Recursos Limitados

UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages

Resumen

Support