ChatPaper.aiChatPaper

Kleine Modelle, große Wirkung: Effiziente Korpus- und graphenbasierte Anpassung kleiner mehrsprachiger Sprachmodelle für ressourcenarme Sprachen

Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages

February 14, 2025
Autoren: Daniil Gurgurov, Ivan Vykopal, Josef van Genabith, Simon Ostermann
cs.AI

Zusammenfassung

Sprachen mit geringen Ressourcen (Low-Resource Languages, LRLs) stehen in der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) aufgrund begrenzter Daten vor erheblichen Herausforderungen. Während aktuelle state-of-the-art große Sprachmodelle (Large Language Models, LLMs) nach wie vor Schwierigkeiten mit LRLs haben, bieten kleinere mehrsprachige Modelle (multilingual Models, mLMs) wie mBERT und XLM-R größere Erfolgsaussichten, da ihre Kapazität besser an die geringe Menge an Trainingsdaten angepasst ist. Diese Studie untersucht systematisch parameter-effiziente Adapter-basierte Methoden zur Anpassung von mLMs an LRLs und evaluiert drei Architekturen: Sequential Bottleneck, Invertible Bottleneck und Low-Rank Adaptation. Unter Verwendung von unstrukturiertem Text aus GlotCC und strukturiertem Wissen aus ConceptNet zeigen wir, dass kleine Anpassungsdatensätze (z. B. bis zu 1 GB Freitext oder einige MB an Wissensgraphendaten) Verbesserungen in intrinsischen (maskierte Sprachmodellierung) und extrinsischen Aufgaben (Themenklassifizierung, Sentiment-Analyse und Named Entity Recognition) erzielen. Wir stellen fest, dass Sequential Bottleneck Adapter in der Sprachmodellierung überzeugen, während Invertible Bottleneck Adapter bei nachgelagerten Aufgaben aufgrund besserer Einbettungsausrichtung und höherer Parameteranzahl leicht überlegen sind. Adapter-basierte Methoden erreichen oder übertreffen das vollständige Fine-Tuning, verwenden jedoch deutlich weniger Parameter, und kleinere mLMs erweisen sich für LRLs als effektiver als massive LLMs wie LLaMA-3, GPT-4 und auf DeepSeek-R1 basierende destillierte Modelle. Obwohl die Anpassung die Leistung verbessert, bleibt die Größe der Vortrainingsdaten der dominierende Faktor, insbesondere für Sprachen mit umfangreicher Vortrainingsabdeckung.
English
Low-resource languages (LRLs) face significant challenges in natural language processing (NLP) due to limited data. While current state-of-the-art large language models (LLMs) still struggle with LRLs, smaller multilingual models (mLMs) such as mBERT and XLM-R offer greater promise due to a better fit of their capacity to low training data sizes. This study systematically investigates parameter-efficient adapter-based methods for adapting mLMs to LRLs, evaluating three architectures: Sequential Bottleneck, Invertible Bottleneck, and Low-Rank Adaptation. Using unstructured text from GlotCC and structured knowledge from ConceptNet, we show that small adaptation datasets (e.g., up to 1 GB of free-text or a few MB of knowledge graph data) yield gains in intrinsic (masked language modeling) and extrinsic tasks (topic classification, sentiment analysis, and named entity recognition). We find that Sequential Bottleneck adapters excel in language modeling, while Invertible Bottleneck adapters slightly outperform other methods on downstream tasks due to better embedding alignment and larger parameter counts. Adapter-based methods match or outperform full fine-tuning while using far fewer parameters, and smaller mLMs prove more effective for LRLs than massive LLMs like LLaMA-3, GPT-4, and DeepSeek-R1-based distilled models. While adaptation improves performance, pre-training data size remains the dominant factor, especially for languages with extensive pre-training coverage.

Summary

AI-Generated Summary

PDF92February 17, 2025