ChatPaper.aiChatPaper

UnifiedCrawl:低リソース言語向けLLMの手頃な適応のための集約されたCommon Crawl

UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages

November 21, 2024
著者: Bethel Melesse Tessema, Akhil Kedia, Tae-Sun Chung
cs.AI

要旨

低リソース言語において、大規模言語モデル(LLMs)は訓練データの制約から性能が低下します。私たちは、Common Crawlコーパス全体から低リソース言語のテキストデータを効率的に収集する方法を提案します。UnifiedCrawlというアプローチは、最小限の計算リソースを使用してCommon Crawlをフィルタリングし抽出し、これまでの利用可能なソースよりもはるかに大きな単言語データセットを生成します。私たちは、このデータを活用して、効率的なアダプター手法(QLoRA)を用いて多言語LLMsを微調整することで、低リソース言語における性能を大幅に向上させ、VRAMの使用量を最小限に抑えることを示します。実験では、言語モデリングの困難さ(perplexity)における大幅な改善と、フューショット・プロンプトスコアの増加が示されました。私たちの研究と公開されたソースコードは、消費者向けハードウェアを使用して低リソース言語のLLMsを改善する手頃な方法を提供します。私たちのソースコードはこちらで入手可能です:https://github.com/bethelmelesse/unifiedcrawl.
English
Large language models (LLMs) under-perform on low-resource languages due to limited training data. We present a method to efficiently collect text data for low-resource languages from the entire Common Crawl corpus. Our approach, UnifiedCrawl, filters and extracts common crawl using minimal compute resources, yielding mono-lingual datasets much larger than previously available sources. We demonstrate that leveraging this data to fine-tuning multilingual LLMs via efficient adapter methods (QLoRA) significantly boosts performance on the low-resource language, while minimizing VRAM usage. Our experiments show large improvements in language modeling perplexity and an increase in few-shot prompting scores. Our work and released source code provide an affordable approach to improve LLMs for low-resource languages using consumer hardware. Our source code is available here at https://github.com/bethelmelesse/unifiedcrawl.

Summary

AI-Generated Summary

PDF72November 22, 2024