Kleine Modellen, Grote Impact: Efficiënte Corpus- en Grafiekgebaseerde Aanpassing van Kleine Meertalige Taalmodellen voor Laagtaalige Talen
Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages
February 14, 2025
Auteurs: Daniil Gurgurov, Ivan Vykopal, Josef van Genabith, Simon Ostermann
cs.AI
Samenvatting
Talen met weinig bronnen (Low-Resource Languages, LRLs) worden geconfronteerd met aanzienlijke uitdagingen in natuurlijke taalverwerking (Natural Language Processing, NLP) vanwege beperkte data. Hoewel de huidige state-of-the-art grote taalmmodellen (Large Language Models, LLMs) nog steeds moeite hebben met LRLs, bieden kleinere meertalige modellen (multilingual models, mLMs) zoals mBERT en XLM-R meer potentieel vanwege een betere aansluiting van hun capaciteit op de beperkte hoeveelheid trainingsdata. Deze studie onderzoekt systematisch parameter-efficiënte adapter-gebaseerde methoden voor het aanpassen van mLMs aan LRLs, waarbij drie architecturen worden geëvalueerd: Sequential Bottleneck, Invertible Bottleneck en Low-Rank Adaptation. Met behulp van ongestructureerde tekst uit GlotCC en gestructureerde kennis uit ConceptNet tonen we aan dat kleine aanpassingsdatasets (bijvoorbeeld tot 1 GB vrije tekst of enkele MB’s aan knowledge graph-data) verbeteringen opleveren in intrinsieke (masked language modeling) en extrinsieke taken (topic classification, sentiment analysis en named entity recognition). We constateren dat Sequential Bottleneck-adapters uitblinken in taalmodellering, terwijl Invertible Bottleneck-adapters andere methoden licht overtreffen bij downstream-taken vanwege betere embedding-uitlijning en een groter aantal parameters. Adapter-gebaseerde methoden presteren even goed of beter dan volledige fine-tuning, terwijl ze veel minder parameters gebruiken, en kleinere mLMs blijken effectiever voor LRLs dan enorme LLMs zoals LLaMA-3, GPT-4 en op DeepSeek-R1 gebaseerde gedistilleerde modellen. Hoewel aanpassing de prestaties verbetert, blijft de grootte van de pre-trainingsdata de dominante factor, vooral voor talen met uitgebreide pre-trainingsdekking.
English
Low-resource languages (LRLs) face significant challenges in natural language
processing (NLP) due to limited data. While current state-of-the-art large
language models (LLMs) still struggle with LRLs, smaller multilingual models
(mLMs) such as mBERT and XLM-R offer greater promise due to a better fit of
their capacity to low training data sizes. This study systematically
investigates parameter-efficient adapter-based methods for adapting mLMs to
LRLs, evaluating three architectures: Sequential Bottleneck, Invertible
Bottleneck, and Low-Rank Adaptation. Using unstructured text from GlotCC and
structured knowledge from ConceptNet, we show that small adaptation datasets
(e.g., up to 1 GB of free-text or a few MB of knowledge graph data) yield gains
in intrinsic (masked language modeling) and extrinsic tasks (topic
classification, sentiment analysis, and named entity recognition). We find that
Sequential Bottleneck adapters excel in language modeling, while Invertible
Bottleneck adapters slightly outperform other methods on downstream tasks due
to better embedding alignment and larger parameter counts. Adapter-based
methods match or outperform full fine-tuning while using far fewer parameters,
and smaller mLMs prove more effective for LRLs than massive LLMs like LLaMA-3,
GPT-4, and DeepSeek-R1-based distilled models. While adaptation improves
performance, pre-training data size remains the dominant factor, especially for
languages with extensive pre-training coverage.Summary
AI-Generated Summary