Piccoli Modelli, Grande Impatto: Adattamento Efficiente Basato su Corpus e Grafi di Piccoli Modelli Linguistici Multilingue per Lingue a Risorse Limitare
Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages
February 14, 2025
Autori: Daniil Gurgurov, Ivan Vykopal, Josef van Genabith, Simon Ostermann
cs.AI
Abstract
Le lingue a risorse limitate (LRL) affrontano sfide significative nell'elaborazione del linguaggio naturale (NLP) a causa della scarsità di dati. Sebbene i modelli linguistici di grandi dimensioni (LLM) all'avanguardia continuino a mostrare difficoltà con le LRL, i modelli multilingue più piccoli (mLMs) come mBERT e XLM-R offrono maggiori promesse grazie a una migliore adattabilità della loro capacità alle dimensioni ridotte dei dati di addestramento. Questo studio indaga sistematicamente metodi di adattamento basati su adattatori efficienti in termini di parametri per adattare i mLMs alle LRL, valutando tre architetture: Sequential Bottleneck, Invertible Bottleneck e Low-Rank Adaptation. Utilizzando testo non strutturato da GlotCC e conoscenza strutturata da ConceptNet, dimostriamo che piccoli dataset di adattamento (ad esempio, fino a 1 GB di testo libero o pochi MB di dati di grafi di conoscenza) producono miglioramenti in compiti intrinseci (modellazione del linguaggio mascherato) ed estrinseci (classificazione di argomenti, analisi del sentimento e riconoscimento di entità nominate). Troviamo che gli adattatori Sequential Bottleneck eccellono nella modellazione del linguaggio, mentre gli adattatori Invertible Bottleneck superano leggermente altri metodi nei compiti downstream grazie a un migliore allineamento degli embedding e a un numero maggiore di parametri. I metodi basati su adattatori eguagliano o superano il fine-tuning completo utilizzando molti meno parametri, e i mLMs più piccoli si dimostrano più efficaci per le LRL rispetto ai LLM massicci come LLaMA-3, GPT-4 e modelli distillati basati su DeepSeek-R1. Sebbene l'adattamento migliori le prestazioni, la dimensione dei dati di pre-addestramento rimane il fattore dominante, specialmente per le lingue con una copertura estesa di pre-addestramento.
English
Low-resource languages (LRLs) face significant challenges in natural language
processing (NLP) due to limited data. While current state-of-the-art large
language models (LLMs) still struggle with LRLs, smaller multilingual models
(mLMs) such as mBERT and XLM-R offer greater promise due to a better fit of
their capacity to low training data sizes. This study systematically
investigates parameter-efficient adapter-based methods for adapting mLMs to
LRLs, evaluating three architectures: Sequential Bottleneck, Invertible
Bottleneck, and Low-Rank Adaptation. Using unstructured text from GlotCC and
structured knowledge from ConceptNet, we show that small adaptation datasets
(e.g., up to 1 GB of free-text or a few MB of knowledge graph data) yield gains
in intrinsic (masked language modeling) and extrinsic tasks (topic
classification, sentiment analysis, and named entity recognition). We find that
Sequential Bottleneck adapters excel in language modeling, while Invertible
Bottleneck adapters slightly outperform other methods on downstream tasks due
to better embedding alignment and larger parameter counts. Adapter-based
methods match or outperform full fine-tuning while using far fewer parameters,
and smaller mLMs prove more effective for LRLs than massive LLMs like LLaMA-3,
GPT-4, and DeepSeek-R1-based distilled models. While adaptation improves
performance, pre-training data size remains the dominant factor, especially for
languages with extensive pre-training coverage.Summary
AI-Generated Summary