ChatPaper.aiChatPaper

Маленькие модели, большое воздействие: эффективная адаптация маленьких мультиязычных языковых моделей для языков с ограниченными ресурсами на основе корпуса и графов.

Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages

February 14, 2025
Авторы: Daniil Gurgurov, Ivan Vykopal, Josef van Genabith, Simon Ostermann
cs.AI

Аннотация

Языки с ограниченными ресурсами (LRLs) сталкиваются с серьезными проблемами в обработке естественного языка (NLP) из-за ограниченного объема данных. В то время как современные передовые крупные языковые модели (LLMs) все еще испытывают трудности с LRLs, более маленькие мультиязычные модели (mLMs) такие как mBERT и XLM-R предлагают большую перспективу благодаря лучшему соответствию их возможностей низким объемам обучающих данных. В данном исследовании систематически рассматриваются методы адаптации на основе адаптеров, эффективных по параметрам, для адаптации mLMs к LRLs, оцениваются три архитектуры: Последовательный Узкое место, Обратимое Узкое место и Адаптация с Низким Рангом. Используя неструктурированный текст из GlotCC и структурированные знания из ConceptNet, мы показываем, что небольшие наборы данных для адаптации (например, до 1 ГБ свободного текста или несколько МБ данных графа знаний) приводят к улучшениям во внутренних (маскированное моделирование языка) и внешних задачах (классификация тем, анализ настроений и распознавание именованных сущностей). Мы обнаружили, что адаптеры Последовательного Узкого места превосходят в моделировании языка, в то время как адаптеры Обратимого Узкого места незначительно превосходят другие методы во вторичных задачах из-за лучшего выравнивания встраивания и большего количества параметров. Методы на основе адаптеров соответствуют или превосходят полное дообучение, используя значительно меньше параметров, и более маленькие mLMs оказываются более эффективными для LRLs, чем массивные LLMs, такие как LLaMA-3, GPT-4 и модели на основе DeepSeek-R1. В то время как адаптация улучшает производительность, размер данных предварительного обучения остается доминирующим фактором, особенно для языков с обширным охватом предварительного обучения.
English
Low-resource languages (LRLs) face significant challenges in natural language processing (NLP) due to limited data. While current state-of-the-art large language models (LLMs) still struggle with LRLs, smaller multilingual models (mLMs) such as mBERT and XLM-R offer greater promise due to a better fit of their capacity to low training data sizes. This study systematically investigates parameter-efficient adapter-based methods for adapting mLMs to LRLs, evaluating three architectures: Sequential Bottleneck, Invertible Bottleneck, and Low-Rank Adaptation. Using unstructured text from GlotCC and structured knowledge from ConceptNet, we show that small adaptation datasets (e.g., up to 1 GB of free-text or a few MB of knowledge graph data) yield gains in intrinsic (masked language modeling) and extrinsic tasks (topic classification, sentiment analysis, and named entity recognition). We find that Sequential Bottleneck adapters excel in language modeling, while Invertible Bottleneck adapters slightly outperform other methods on downstream tasks due to better embedding alignment and larger parameter counts. Adapter-based methods match or outperform full fine-tuning while using far fewer parameters, and smaller mLMs prove more effective for LRLs than massive LLMs like LLaMA-3, GPT-4, and DeepSeek-R1-based distilled models. While adaptation improves performance, pre-training data size remains the dominant factor, especially for languages with extensive pre-training coverage.

Summary

AI-Generated Summary

PDF92February 17, 2025