ChatPaper.aiChatPaper

Modelos Pequenos, Grande Impacto: Adaptação Eficiente de Modelos de Linguagem Pequenos Multilíngues para Idiomas de Baixos Recursos com Base em Corpus e Grafos

Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages

February 14, 2025
Autores: Daniil Gurgurov, Ivan Vykopal, Josef van Genabith, Simon Ostermann
cs.AI

Resumo

As línguas de baixo recurso (LBRs) enfrentam desafios significativos no processamento de linguagem natural (PLN) devido à falta de dados. Enquanto os modelos de linguagem grandes (MLGs) de última geração ainda têm dificuldades com as LBRs, modelos multilíngues menores (MMs) como mBERT e XLM-R oferecem maior promessa devido a uma melhor adaptação de sua capacidade aos tamanhos reduzidos de dados de treinamento. Este estudo investiga sistematicamente métodos baseados em adaptadores eficientes em parâmetros para adaptar MMs a LBRs, avaliando três arquiteturas: Bottleneck Sequencial, Bottleneck Invertível e Adaptação de Baixa Classificação. Utilizando texto não estruturado do GlotCC e conhecimento estruturado do ConceptNet, mostramos que pequenos conjuntos de dados de adaptação (por exemplo, até 1 GB de texto livre ou alguns MB de dados de grafo de conhecimento) resultam em melhorias em tarefas intrínsecas (modelagem de linguagem mascarada) e extrínsecas (classificação de tópicos, análise de sentimento e reconhecimento de entidades nomeadas). Descobrimos que os adaptadores Bottleneck Sequencial se destacam na modelagem de linguagem, enquanto os adaptadores Bottleneck Invertível superam ligeiramente outros métodos em tarefas posteriores devido a uma melhor alinhamento de incorporação e maior contagem de parâmetros. Métodos baseados em adaptadores igualam ou superam a sintonização completa enquanto usam muito menos parâmetros, e MMs menores se mostram mais eficazes para LBRs do que MLGs massivos como modelos destilados baseados em LLaMA-3, GPT-4 e DeepSeek-R1. Enquanto a adaptação melhora o desempenho, o tamanho dos dados de pré-treinamento continua sendo o fator dominante, especialmente para idiomas com ampla cobertura de pré-treinamento.
English
Low-resource languages (LRLs) face significant challenges in natural language processing (NLP) due to limited data. While current state-of-the-art large language models (LLMs) still struggle with LRLs, smaller multilingual models (mLMs) such as mBERT and XLM-R offer greater promise due to a better fit of their capacity to low training data sizes. This study systematically investigates parameter-efficient adapter-based methods for adapting mLMs to LRLs, evaluating three architectures: Sequential Bottleneck, Invertible Bottleneck, and Low-Rank Adaptation. Using unstructured text from GlotCC and structured knowledge from ConceptNet, we show that small adaptation datasets (e.g., up to 1 GB of free-text or a few MB of knowledge graph data) yield gains in intrinsic (masked language modeling) and extrinsic tasks (topic classification, sentiment analysis, and named entity recognition). We find that Sequential Bottleneck adapters excel in language modeling, while Invertible Bottleneck adapters slightly outperform other methods on downstream tasks due to better embedding alignment and larger parameter counts. Adapter-based methods match or outperform full fine-tuning while using far fewer parameters, and smaller mLMs prove more effective for LRLs than massive LLMs like LLaMA-3, GPT-4, and DeepSeek-R1-based distilled models. While adaptation improves performance, pre-training data size remains the dominant factor, especially for languages with extensive pre-training coverage.

Summary

AI-Generated Summary

PDF92February 17, 2025