ChatPaper.aiChatPaper

UnifiedCrawl: Объединенный Common Crawl для доступной адаптации LLM на языках с ограниченными ресурсами

UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages

November 21, 2024
Авторы: Bethel Melesse Tessema, Akhil Kedia, Tae-Sun Chung
cs.AI

Аннотация

Большие языковые модели (LLM) показывают низкую производительность на языках с ограниченными ресурсами из-за недостатка обучающих данных. Мы представляем метод эффективного сбора текстовых данных для языков с ограниченными ресурсами из всего корпуса Common Crawl. Наш подход, UnifiedCrawl, фильтрует и извлекает общий обход, используя минимальные вычислительные ресурсы, что приводит к созданию монолингвистических наборов данных значительно больших, чем ранее доступные источники. Мы демонстрируем, что использование этих данных для настройки мультиязычных LLM с помощью эффективных методов адаптеров (QLoRA) существенно повышает производительность на языках с ограниченными ресурсами, минимизируя использование VRAM. Наши эксперименты показывают значительное улучшение в перплексии языкового моделирования и увеличение результатов в задачах с небольшим количеством примеров. Наша работа и предоставленный исходный код предлагают доступный подход к улучшению LLM для языков с ограниченными ресурсами с использованием оборудования для потребителей. Наш исходный код доступен здесь: https://github.com/bethelmelesse/unifiedcrawl.
English
Large language models (LLMs) under-perform on low-resource languages due to limited training data. We present a method to efficiently collect text data for low-resource languages from the entire Common Crawl corpus. Our approach, UnifiedCrawl, filters and extracts common crawl using minimal compute resources, yielding mono-lingual datasets much larger than previously available sources. We demonstrate that leveraging this data to fine-tuning multilingual LLMs via efficient adapter methods (QLoRA) significantly boosts performance on the low-resource language, while minimizing VRAM usage. Our experiments show large improvements in language modeling perplexity and an increase in few-shot prompting scores. Our work and released source code provide an affordable approach to improve LLMs for low-resource languages using consumer hardware. Our source code is available here at https://github.com/bethelmelesse/unifiedcrawl.

Summary

AI-Generated Summary

PDF72November 22, 2024