Petits modèles, grand impact : Adaptation efficace de petits modèles de langage multilingues pour les langues à faibles ressources grâce à un corpus et à une approche basée sur les graphes.
Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages
February 14, 2025
Auteurs: Daniil Gurgurov, Ivan Vykopal, Josef van Genabith, Simon Ostermann
cs.AI
Résumé
Les langues à ressources limitées (LRL) rencontrent d'importants défis en traitement automatique du langage naturel (TALN) en raison de données limitées. Alors que les modèles de langage de grande taille (LLM) à la pointe de la technologie actuelle peinent encore avec les LRL, des modèles multilingues plus petits (mLM) tels que mBERT et XLM-R offrent de meilleures perspectives en raison d'une meilleure adaptation de leur capacité aux tailles réduites des données d'entraînement. Cette étude examine systématiquement les méthodes d'adaptation basées sur des adaptateurs efficaces en termes de paramètres pour adapter les mLM aux LRL, évaluant trois architectures : Séquentielle à Bouchon, Inversible à Bouchon, et Adaptation à Rang Faible. En utilisant du texte non structuré de GlotCC et des connaissances structurées de ConceptNet, nous montrons que de petits ensembles de données d'adaptation (par exemple, jusqu'à 1 Go de texte libre ou quelques Mo de données de graphe de connaissances) produisent des gains dans les tâches intrinsèques (modélisation de langage masqué) et extrinsèques (classification de sujets, analyse de sentiments et reconnaissance d'entités nommées). Nous constatons que les adaptateurs à Bouchon Séquentielle excellent dans la modélisation de langage, tandis que les adaptateurs à Bouchon Inversible surpassent légèrement les autres méthodes sur les tâches ultérieures en raison d'un meilleur alignement des plongements et d'un plus grand nombre de paramètres. Les méthodes basées sur des adaptateurs égalent ou surpassent le fine-tuning complet tout en utilisant beaucoup moins de paramètres, et les mLM plus petits se révèlent plus efficaces pour les LRL que les LLM massifs tels que les modèles distillés basés sur LLaMA-3, GPT-4 et DeepSeek-R1. Alors que l'adaptation améliore les performances, la taille des données de pré-entraînement reste le facteur dominant, en particulier pour les langues bénéficiant d'une couverture de pré-entraînement étendue.
English
Low-resource languages (LRLs) face significant challenges in natural language
processing (NLP) due to limited data. While current state-of-the-art large
language models (LLMs) still struggle with LRLs, smaller multilingual models
(mLMs) such as mBERT and XLM-R offer greater promise due to a better fit of
their capacity to low training data sizes. This study systematically
investigates parameter-efficient adapter-based methods for adapting mLMs to
LRLs, evaluating three architectures: Sequential Bottleneck, Invertible
Bottleneck, and Low-Rank Adaptation. Using unstructured text from GlotCC and
structured knowledge from ConceptNet, we show that small adaptation datasets
(e.g., up to 1 GB of free-text or a few MB of knowledge graph data) yield gains
in intrinsic (masked language modeling) and extrinsic tasks (topic
classification, sentiment analysis, and named entity recognition). We find that
Sequential Bottleneck adapters excel in language modeling, while Invertible
Bottleneck adapters slightly outperform other methods on downstream tasks due
to better embedding alignment and larger parameter counts. Adapter-based
methods match or outperform full fine-tuning while using far fewer parameters,
and smaller mLMs prove more effective for LRLs than massive LLMs like LLaMA-3,
GPT-4, and DeepSeek-R1-based distilled models. While adaptation improves
performance, pre-training data size remains the dominant factor, especially for
languages with extensive pre-training coverage.Summary
AI-Generated Summary